6.2 AI开源社区周报【五月Week2】

AI开源社区周报【五月Week2】

统计时间: 2025年5月16日 - 2025年5月23日

1. AI Agent领域
2. 大语言模型
3. AI视频生成
4. ComfyUI更新
5. AI图像处理
6. 开源模型

AI Agent领域

Claude 4

开发方: Anthropic | 发布日期: 2025年5月22日

包括Claude Opus 4和Claude Sonnet 4两个版本，Claude Opus 4被称为"全球最佳编程模型"。

能够连续工作7小时进行自主编程
支持Extended thinking（扩展推理）功能
可通过Anthropic API上的新代码执行工具运行代码
能够加载数据集、清理数据、生成探索性分析
在SWE-bench等关键基准测试中表现优异
擅长处理复杂且超长时间运行的工作流
支持工件调用、文件读取、并行任务等核心功能

官方链接: https://www.anthropic.com/claude

LightLab

开发方: 特拉维夫大学、Google、赖希曼大学、耶路撒冷希伯来大学联合研究团队 | 发布日期: 2025年5月

基于扩散模型的图像光源控制工具，能从单一图像实现对光源的细粒度、参数化控制。

可改变可见光源的强度和颜色
可调整环境光照的强度
能够在场景中插入虚拟光源
利用扩散模型的真实感先验隐式模拟复杂光效
支持间接照明、阴影和反射等效果
提供交互式演示，允许用户通过滑块调整光照强度和颜色

技术原理: 结合少量原始照片对和大量合成渲染图像，利用光的线性特性，将目标光源与场景环境光分离

官方链接: https://nadmag.github.io/LightLab

论文: arXiv:2505.09608

Skywork Super Agents (天工超级智能体)

开发方: 昆仑万维 | 发布日期: 2025年5月

专为办公场景打造的垂直领域Agent。

提供文档、PPT、表格、网页、播客等专家级场景
支持文件上传和知识库构建
提供选择式交互设计，减少用户输入成本
支持全流程可控的PPT生成，包括大纲确认和内容编辑
支持表格数据处理

海外版: https://skywork.ai/国内版: https://www.tiangong.cn/

Agent Mode (Gemini)

开发方: Google | 发布日期: 2025年5月（实验阶段）

在Gemini应用中引入的AI代理模式。

让普通用户能支使AI在网上替自己办事
可自动在网站搜索符合条件的信息
调用Mariner帮助针对特定条件筛选
支持自动表单提交
持续替用户监控更新

官方链接: https://deepmind.google/technologies/gemini/

大语言模型

Gemini 2.5 Pro

开发方: Google | 发布日期: 2025年5月

在LMArena全部测试项中碾压竞品
在语言、推理、代码等方面全线领先
在WebDev编码测试中获得天花板级分数
能够自主完成复杂任务，如打通《宝可梦：蓝》

官方链接: https://deepmind.google/technologies/gemini/

Gemini 2.5 Flash

开发方: Google | 发布日期: 2025年5月

速度型模型，高效处理任务
在LMArena榜单上高居第二
在推理、代码和长上下文等维度均有提升
已在AI Studio、Vertex AI和Gemini App提供预览版

官方链接: https://deepmind.google/technologies/gemini/

Gemini 2.5 Pro Deep Think

开发方: Google | 发布日期: 2025年5月（预告）

Gemini 2.5 Pro的超强模式
在数学和编程基准测试中表现优异
类似于OpenAI的o1 pro，用更长推理时间换取更高质量
目前仍在安全评估阶段，仅向信任的测试者开放

官方链接: https://deepmind.google/technologies/gemini/

Gemini Diffusion

开发方: Google | 发布日期: 2025年5月（实验性）

通过逐步细化噪声并行生成内容
展现出惊人的低延迟
生成速度比2.0版Flash Lite快五倍
代码任务质量几乎相等

官方链接: https://deepmind.google/technologies/gemini/

DeepSeek-R1

类型: 大语言模型

满血版，适合深度思考

GitHub: https://github.com/deepseek-ai/DeepSeek-LLM 官方网站: https://deepseek.com/

豆包模型

类型: 大语言模型

速度较快，适合大部分场景

官方网站: https://www.doubao.com/

AI视频生成

Flow

开发方: Google | 发布日期: 2025年5月

AI影像创作整合服务

整合Google在AI影像生成方面的工作流平台
包含生成、剪辑一体化功能
支持将Veo家族生成的片段放进时间轴进行编排、裁切等基本操作
核心功能是"延展"：可将原视频的任意一帧作为起始帧继续生成新动画
解决了传统首尾帧拼接的衔接问题，新动画与拼接点非常平滑
打破了AI视频秒数限制，为叙事创作带来新可能
支持截图关键帧功能，便于基于任意一帧开始图生视频
支持镜头调度

官方链接: https://deepmind.google/

Veo3

开发方: Google | 发布日期: 2025年5月

多模态影视生成模型

真正的多模态影视生成：动画、配音、对口型、音乐音效一次性生成
根据提示词自动配上音乐和音效
提示词中包含台词时，自动完成配音和对口型
相比传统工作流（生成图像-生成动画-生成配音/音效/音乐-对口型），大大降低创作门槛
支持从已生成动画截图开始生成新影片（类似阉割版I2V）
视频生成质量有提升但相比Veo2提升不明显
对中文支持不佳，台词较多时可能出现丢台词、对话主体混乱等问题

官方链接: https://deepmind.google/

Imagen4

开发方: Google | 发布日期: 2025年5月

Google最新一代图像生成模型

官方链接: https://deepmind.google/

ComfyUI更新

Wan VACE 2.1

类型: ComfyUI视频生成模型 | 发布日期: 2025年5月（更新）

支持文本生成视频(T2V)、图像生成视频(I2V)和视频生成视频(V2V)
新增深度控制功能
支持参考图像功能
新增视频修复工作流
支持开始和结束百分比控制
新增模板：Lotus Depth Wan VACE

LBM Wrapper (Latent Bridge Matching)

类型: ComfyUI图像重光照工具 | 发布日期: 2025年5月（更新）

为图像添加真实阴影而不损失细节
通过潜空间桥接匹配技术实现图像重光照
提供基础重光照和高级控制选项
支持真实光影效果

AI图像处理

Gemini Live

开发方: Google | 发布日期: 2025年5月

多模态交互助手

源自Project Astra研究
能理解用户周围世界的通用AI助手
用户可以对着手机摄像头或屏幕上的任何内容和AI对话
视觉问答功能已在Android和iOS平台全面上线
可打通用户的搜索历史、Gmail、Drive等Google应用信息

官方链接: https://deepmind.google/technologies/gemini/

DeepResearch和Canvas创作

开发方: Google | 发布日期: 2025年5月

研究和创作工具

支持上传用户自己的文件进行深度研究
可将研究报告一键转成网页、信息图
支持45种语言的播客转换
Canvas支持前端预览写出的代码
支持分享给朋友

官方链接: https://deepmind.google/

开源模型

飞书知识问答 (飞书AI知识库)

发布日期: 2025年5月21日

来源: 微信文章 - 现在，你终于可以用飞书搭自己的AI知识库了

基于企业内部知识构建AI知识库
支持上传文件（文本、录音和视频等多种类型）
支持微信导入功能
支持DeepSeek-R1和豆包两种模型切换
知识范围包括飞书消息、群聊、文档、知识库等内容

官方链接: https://www.feishu.cn/product/wiki

Google AI Ultra会员

价格: 249.99美元/月 | 发布日期: 2025年5月 | 开发方: Google

包含所有新发布的AI产品
包括Gemini 2.5 Pro Deep Think、Veo3、Project Mariner等
整合NotebookLM、Youtube等会员服务

官方链接: https://deepmind.google/technologies/gemini/

< 6.1 AI开源社区周报【五月Week1】

6.3 AI开源社区周报【六月Week1】 >

1 关于MyShell

2 新手指南

3 炉边对话

4 Shell Agent

5 常用问答

6 AI 开源社区周报

6.2 AI开源社区周报【五月Week2】

AI开源社区周报【五月Week2】

AI Agent领域

Claude 4

LightLab

Skywork Super Agents (天工超级智能体)

Agent Mode (Gemini)

大语言模型

Gemini 2.5 Pro

Gemini 2.5 Flash

Gemini 2.5 Pro Deep Think

Gemini Diffusion

DeepSeek-R1

豆包模型

AI视频生成

Flow

Veo3

Imagen4

ComfyUI更新

Wan VACE 2.1

LBM Wrapper (Latent Bridge Matching)

AI图像处理

Gemini Live

DeepResearch和Canvas创作

开源模型

飞书知识问答 (飞书AI知识库)

Google AI Ultra会员