1 关于MyShell

2 新手指南

3 炉边对话

4 Shell Agent

5 常用问答

6 AI 开源社区周报

6.2 AI开源社区周报【五月Week2】

AI开源社区周报【五月Week2】


统计时间: 2025年5月16日 - 2025年5月23日

目录

  • 1. AI Agent领域

  • 2. 大语言模型

  • 3. AI视频生成

  • 4. ComfyUI更新

  • 5. AI图像处理

  • 6. 开源模型

AI Agent领域

Claude 4

开发方: Anthropic | 发布日期: 2025年5月22日

包括Claude Opus 4和Claude Sonnet 4两个版本,Claude Opus 4被称为"全球最佳编程模型"。

  • 能够连续工作7小时进行自主编程

  • 支持Extended thinking(扩展推理)功能

  • 可通过Anthropic API上的新代码执行工具运行代码

  • 能够加载数据集、清理数据、生成探索性分析

  • 在SWE-bench等关键基准测试中表现优异

  • 擅长处理复杂且超长时间运行的工作流

  • 支持工件调用、文件读取、并行任务等核心功能

官方链接: https://www.anthropic.com/claude

LightLab

开发方: 特拉维夫大学、Google、赖希曼大学、耶路撒冷希伯来大学联合研究团队 | 发布日期: 2025年5月

基于扩散模型的图像光源控制工具,能从单一图像实现对光源的细粒度、参数化控制。

  • 可改变可见光源的强度和颜色

  • 可调整环境光照的强度

  • 能够在场景中插入虚拟光源

  • 利用扩散模型的真实感先验隐式模拟复杂光效

  • 支持间接照明、阴影和反射等效果

  • 提供交互式演示,允许用户通过滑块调整光照强度和颜色

技术原理: 结合少量原始照片对和大量合成渲染图像,利用光的线性特性,将目标光源与场景环境光分离

官方链接: https://nadmag.github.io/LightLab

论文: arXiv:2505.09608

Skywork Super Agents (天工超级智能体)

开发方: 昆仑万维 | 发布日期: 2025年5月

专为办公场景打造的垂直领域Agent。

  • 提供文档、PPT、表格、网页、播客等专家级场景

  • 支持文件上传和知识库构建

  • 提供选择式交互设计,减少用户输入成本

  • 支持全流程可控的PPT生成,包括大纲确认和内容编辑

  • 支持表格数据处理

海外版: https://skywork.ai/国内版: https://www.tiangong.cn/

Agent Mode (Gemini)

开发方: Google | 发布日期: 2025年5月(实验阶段)

在Gemini应用中引入的AI代理模式。

  • 让普通用户能支使AI在网上替自己办事

  • 可自动在网站搜索符合条件的信息

  • 调用Mariner帮助针对特定条件筛选

  • 支持自动表单提交

  • 持续替用户监控更新

官方链接: https://deepmind.google/technologies/gemini/

大语言模型

Gemini 2.5 Pro

开发方: Google | 发布日期: 2025年5月

  • 在LMArena全部测试项中碾压竞品

  • 在语言、推理、代码等方面全线领先

  • 在WebDev编码测试中获得天花板级分数

  • 能够自主完成复杂任务,如打通《宝可梦:蓝》

官方链接: https://deepmind.google/technologies/gemini/

Gemini 2.5 Flash

开发方: Google | 发布日期: 2025年5月

  • 速度型模型,高效处理任务

  • 在LMArena榜单上高居第二

  • 在推理、代码和长上下文等维度均有提升

  • 已在AI Studio、Vertex AI和Gemini App提供预览版

官方链接: https://deepmind.google/technologies/gemini/

Gemini 2.5 Pro Deep Think

开发方: Google | 发布日期: 2025年5月(预告)

  • Gemini 2.5 Pro的超强模式

  • 在数学和编程基准测试中表现优异

  • 类似于OpenAI的o1 pro,用更长推理时间换取更高质量

  • 目前仍在安全评估阶段,仅向信任的测试者开放

官方链接: https://deepmind.google/technologies/gemini/

Gemini Diffusion

开发方: Google | 发布日期: 2025年5月(实验性)

  • 通过逐步细化噪声并行生成内容

  • 展现出惊人的低延迟

  • 生成速度比2.0版Flash Lite快五倍

  • 代码任务质量几乎相等

官方链接: https://deepmind.google/technologies/gemini/

DeepSeek-R1

类型: 大语言模型

满血版,适合深度思考

GitHub: https://github.com/deepseek-ai/DeepSeek-LLM官方网站: https://deepseek.com/

豆包模型

类型: 大语言模型

速度较快,适合大部分场景

官方网站: https://www.doubao.com/

AI视频生成

Flow

开发方: Google | 发布日期: 2025年5月

AI影像创作整合服务

  • 整合Google在AI影像生成方面的工作流平台

  • 包含生成、剪辑一体化功能

  • 支持将Veo家族生成的片段放进时间轴进行编排、裁切等基本操作

  • 核心功能是"延展":可将原视频的任意一帧作为起始帧继续生成新动画

  • 解决了传统首尾帧拼接的衔接问题,新动画与拼接点非常平滑

  • 打破了AI视频秒数限制,为叙事创作带来新可能

  • 支持截图关键帧功能,便于基于任意一帧开始图生视频

  • 支持镜头调度

官方链接: https://deepmind.google/

Veo3

开发方: Google | 发布日期: 2025年5月

多模态影视生成模型

  • 真正的多模态影视生成:动画、配音、对口型、音乐音效一次性生成

  • 根据提示词自动配上音乐和音效

  • 提示词中包含台词时,自动完成配音和对口型

  • 相比传统工作流(生成图像-生成动画-生成配音/音效/音乐-对口型),大大降低创作门槛

  • 支持从已生成动画截图开始生成新影片(类似阉割版I2V)

  • 视频生成质量有提升但相比Veo2提升不明显

  • 对中文支持不佳,台词较多时可能出现丢台词、对话主体混乱等问题

官方链接: https://deepmind.google/

Imagen4

开发方: Google | 发布日期: 2025年5月

Google最新一代图像生成模型

官方链接: https://deepmind.google/

ComfyUI更新

Wan VACE 2.1

类型: ComfyUI视频生成模型 | 发布日期: 2025年5月(更新)

  • 支持文本生成视频(T2V)、图像生成视频(I2V)和视频生成视频(V2V)

  • 新增深度控制功能

  • 支持参考图像功能

  • 新增视频修复工作流

  • 支持开始和结束百分比控制

  • 新增模板:Lotus Depth Wan VACE

相关仓库:

官方文档: https://docs.comfy.org/tutorials/video/wan/vace视频包装器: https://github.com/kijai/ComfyUI-WanVideoWrapper工作流示例: https://github.com/jakechai/ComfyUI-JakeUpgrade/tree/master/Workflow/ComfyUI

更新状态: 最近更新模板至0.1.18版本,PR #8224已合并

LBM Wrapper (Latent Bridge Matching)

类型: ComfyUI图像重光照工具 | 发布日期: 2025年5月(更新)

  • 为图像添加真实阴影而不损失细节

  • 通过潜空间桥接匹配技术实现图像重光照

  • 提供基础重光照和高级控制选项

  • 支持真实光影效果

相关仓库:

官方仓库: https://github.com/kijai/ComfyUI-LBMWrapper

示例工作流位于: ComfyUI/custom_nodes/ComfyUI-LBMWrapper/example_workflows

教程资源:

基础教程: https://www.stablediffusiontutorials.com/2025/05/relight-image-latent-bridge-matching.html视频教程: https://www.youtube.com/watch?v=9fRdOxf5_iU

AI图像处理

Gemini Live

开发方: Google | 发布日期: 2025年5月

多模态交互助手

  • 源自Project Astra研究

  • 能理解用户周围世界的通用AI助手

  • 用户可以对着手机摄像头或屏幕上的任何内容和AI对话

  • 视觉问答功能已在Android和iOS平台全面上线

  • 可打通用户的搜索历史、Gmail、Drive等Google应用信息

官方链接: https://deepmind.google/technologies/gemini/

DeepResearch和Canvas创作

开发方: Google | 发布日期: 2025年5月

研究和创作工具

  • 支持上传用户自己的文件进行深度研究

  • 可将研究报告一键转成网页、信息图

  • 支持45种语言的播客转换

  • Canvas支持前端预览写出的代码

  • 支持分享给朋友

官方链接: https://deepmind.google/

开源模型

飞书知识问答 (飞书AI知识库)

发布日期: 2025年5月21日

来源: 微信文章 - 现在,你终于可以用飞书搭自己的AI知识库了

  • 基于企业内部知识构建AI知识库

  • 支持上传文件(文本、录音和视频等多种类型)

  • 支持微信导入功能

  • 支持DeepSeek-R1和豆包两种模型切换

  • 知识范围包括飞书消息、群聊、文档、知识库等内容

官方链接: https://www.feishu.cn/product/wiki

Google AI Ultra会员

价格: 249.99美元/月 | 发布日期: 2025年5月 | 开发方: Google

  • 包含所有新发布的AI产品

  • 包括Gemini 2.5 Pro Deep Think、Veo3、Project Mariner等

  • 整合NotebookLM、Youtube等会员服务

官方链接: https://deepmind.google/technologies/gemini/