统计时间: 2025年5月16日 - 2025年5月23日
目录
1. AI Agent领域
2. 大语言模型
3. AI视频生成
4. ComfyUI更新
5. AI图像处理
6. 开源模型
包括Claude Opus 4和Claude Sonnet 4两个版本,Claude Opus 4被称为"全球最佳编程模型"。
能够连续工作7小时进行自主编程
支持Extended thinking(扩展推理)功能
可通过Anthropic API上的新代码执行工具运行代码
能够加载数据集、清理数据、生成探索性分析
在SWE-bench等关键基准测试中表现优异
擅长处理复杂且超长时间运行的工作流
支持工件调用、文件读取、并行任务等核心功能
官方链接: https://www.anthropic.com/claude
基于扩散模型的图像光源控制工具,能从单一图像实现对光源的细粒度、参数化控制。
可改变可见光源的强度和颜色
可调整环境光照的强度
能够在场景中插入虚拟光源
利用扩散模型的真实感先验隐式模拟复杂光效
支持间接照明、阴影和反射等效果
提供交互式演示,允许用户通过滑块调整光照强度和颜色
技术原理: 结合少量原始照片对和大量合成渲染图像,利用光的线性特性,将目标光源与场景环境光分离
官方链接: https://nadmag.github.io/LightLab
论文: arXiv:2505.09608
专为办公场景打造的垂直领域Agent。
提供文档、PPT、表格、网页、播客等专家级场景
支持文件上传和知识库构建
提供选择式交互设计,减少用户输入成本
支持全流程可控的PPT生成,包括大纲确认和内容编辑
支持表格数据处理
海外版: https://skywork.ai/国内版: https://www.tiangong.cn/
在Gemini应用中引入的AI代理模式。
让普通用户能支使AI在网上替自己办事
可自动在网站搜索符合条件的信息
调用Mariner帮助针对特定条件筛选
支持自动表单提交
持续替用户监控更新
在LMArena全部测试项中碾压竞品
在语言、推理、代码等方面全线领先
在WebDev编码测试中获得天花板级分数
能够自主完成复杂任务,如打通《宝可梦:蓝》
官方链接: https://deepmind.google/technologies/gemini/
速度型模型,高效处理任务
在LMArena榜单上高居第二
在推理、代码和长上下文等维度均有提升
已在AI Studio、Vertex AI和Gemini App提供预览版
官方链接: https://deepmind.google/technologies/gemini/
Gemini 2.5 Pro的超强模式
在数学和编程基准测试中表现优异
类似于OpenAI的o1 pro,用更长推理时间换取更高质量
目前仍在安全评估阶段,仅向信任的测试者开放
官方链接: https://deepmind.google/technologies/gemini/
通过逐步细化噪声并行生成内容
展现出惊人的低延迟
生成速度比2.0版Flash Lite快五倍
代码任务质量几乎相等
官方链接: https://deepmind.google/technologies/gemini/
满血版,适合深度思考
GitHub: https://github.com/deepseek-ai/DeepSeek-LLM官方网站: https://deepseek.com/
速度较快,适合大部分场景
AI影像创作整合服务
整合Google在AI影像生成方面的工作流平台
包含生成、剪辑一体化功能
支持将Veo家族生成的片段放进时间轴进行编排、裁切等基本操作
核心功能是"延展":可将原视频的任意一帧作为起始帧继续生成新动画
解决了传统首尾帧拼接的衔接问题,新动画与拼接点非常平滑
打破了AI视频秒数限制,为叙事创作带来新可能
支持截图关键帧功能,便于基于任意一帧开始图生视频
支持镜头调度
官方链接: https://deepmind.google/
多模态影视生成模型
真正的多模态影视生成:动画、配音、对口型、音乐音效一次性生成
根据提示词自动配上音乐和音效
提示词中包含台词时,自动完成配音和对口型
相比传统工作流(生成图像-生成动画-生成配音/音效/音乐-对口型),大大降低创作门槛
支持从已生成动画截图开始生成新影片(类似阉割版I2V)
视频生成质量有提升但相比Veo2提升不明显
对中文支持不佳,台词较多时可能出现丢台词、对话主体混乱等问题
官方链接: https://deepmind.google/
Google最新一代图像生成模型
支持文本生成视频(T2V)、图像生成视频(I2V)和视频生成视频(V2V)
新增深度控制功能
支持参考图像功能
新增视频修复工作流
支持开始和结束百分比控制
新增模板:Lotus Depth Wan VACE
相关仓库:
官方文档: https://docs.comfy.org/tutorials/video/wan/vace视频包装器: https://github.com/kijai/ComfyUI-WanVideoWrapper工作流示例: https://github.com/jakechai/ComfyUI-JakeUpgrade/tree/master/Workflow/ComfyUI
更新状态: 最近更新模板至0.1.18版本,PR #8224已合并
为图像添加真实阴影而不损失细节
通过潜空间桥接匹配技术实现图像重光照
提供基础重光照和高级控制选项
支持真实光影效果
相关仓库:
官方仓库: https://github.com/kijai/ComfyUI-LBMWrapper
示例工作流位于: ComfyUI/custom_nodes/ComfyUI-LBMWrapper/example_workflows
教程资源:
基础教程: https://www.stablediffusiontutorials.com/2025/05/relight-image-latent-bridge-matching.html视频教程: https://www.youtube.com/watch?v=9fRdOxf5_iU
多模态交互助手
源自Project Astra研究
能理解用户周围世界的通用AI助手
用户可以对着手机摄像头或屏幕上的任何内容和AI对话
视觉问答功能已在Android和iOS平台全面上线
可打通用户的搜索历史、Gmail、Drive等Google应用信息
官方链接: https://deepmind.google/technologies/gemini/
研究和创作工具
支持上传用户自己的文件进行深度研究
可将研究报告一键转成网页、信息图
支持45种语言的播客转换
Canvas支持前端预览写出的代码
支持分享给朋友
来源: 微信文章 - 现在,你终于可以用飞书搭自己的AI知识库了
基于企业内部知识构建AI知识库
支持上传文件(文本、录音和视频等多种类型)
支持微信导入功能
支持DeepSeek-R1和豆包两种模型切换
知识范围包括飞书消息、群聊、文档、知识库等内容
官方链接: https://www.feishu.cn/product/wiki
包含所有新发布的AI产品
包括Gemini 2.5 Pro Deep Think、Veo3、Project Mariner等
整合NotebookLM、Youtube等会员服务