6.5 AI开源社区周报【六月Week3】

MagicTryOn：视频虚拟试衣神器
Gemini 2.5 Flash-Lite：Google发布轻量级多模态模型
奥特曼采访发言亮点
AI播客功能上线豆包电脑端
Midjourney 发布 V1 视频生成模型
Google 推出 Search Live 语音搜索功能
OpenAI 开源基于 Agents SDK 的客服演示项目
MiniMax 发布 Hailuo 02：全球领先的视频生成模型

MagicTryOn：视频虚拟试衣神器

浙江大学计算机科学与技术学院联合vivo移动通信等机构推出了基于视频扩散Transformer的视频虚拟试穿框架MagicTryOn。该框架能够实现输入任意人物视频和一张衣服图片，即可生成自然换装效果的视频内容。

MagicTryOn采用Wan2.1扩散Transformer作为骨干网络，并采用全自注意力机制来建模时空一致性。该框架引入了从粗到细的服装保留策略，以及蒙版感知损失，以提高服装区域的保真度。与传统方法相比，MagicTryOn不依赖模板或姿态库，能够适应跳舞、转身等剧烈动作，确保衣服不漂移、不变形，材质和结构细节得到真实还原。

该项目已在GitHub开源，提供了完整的代码实现和预训练权重。开发者可以通过简单的命令行操作实现图像试穿和视频试穿功能。项目还支持自定义试穿，用户可以通过五个步骤获得个性化的试穿效果：生成服装描述、提取服装线条图、生成蒙版、构建无关表示以及获取DensePose信息。

相关链接：

GitHub仓库：https://github.com/vivoCameraResearch/Magic-TryOn/
HuggingFace模型：https://huggingface.co/LuckyLiGY/MagicTryOn
论文链接：https://arxiv.org/abs/2505.21325
详细介绍：https://www.xiaohu.ai/c/a066c4/magictryon
社交媒体：https://x.com/imxiaohu/status/1934923746021954035

Gemini 2.5 Flash-Lite：Google发布轻量级多模态模型

Google于2025年6月17日正式发布了Gemini 2.5 Flash-Lite，这是该公司最具成本效益且速度最快的2.5系列模型。该模型支持完整的Gemini 2.5能力，包括100万token上下文长度、多模态原生支持以及工具调用能力。

Gemini 2.5 Flash-Lite在编程、数学、科学、推理和多模态基准测试中的性能全面超越了2.0 Flash-Lite。该模型特别擅长处理高容量、延迟敏感的任务，如翻译和分类，相比2.0 Flash-Lite和2.0 Flash在广泛的提示样本上具有更低的延迟。

该模型引入了可控思考预算功能，能够根据任务复杂程度智能调整"思考"时间。任务越复杂，模型的思考时间越长，从而提供更准确的结果。同时，Flash-Lite保持了Gemini 2.5系列的核心能力，包括连接Google搜索和代码执行等工具、多模态输入支持等。

目前，Gemini 2.5 Flash-Lite预览版已在Google AI Studio和Vertex AI中提供，同时稳定版的2.5 Flash和Pro也已全面可用。该模型还被集成到Google搜索中，为用户提供更智能的搜索体验。

相关链接：

官方博客：https://blog.google/products/gemini/gemini-2-5-model-family-expands/
技术文档：https://ai.google.dev/gemini-api/docs/models?hl=zh-cn
DeepMind页面：https://deepmind.google/models/gemini/flash-lite/
详细介绍：https://www.xiaohu.ai/c/xiaohu-ai/google-gemini-2-5-flash-lite-gemini-2-5
社交媒体：https://x.com/imxiaohu/status/1935154507727688151

奥特曼采访发言亮点

OpenAI CEO萨姆·奥特曼在近期采访中发表了多项引人关注的言论，特别是对Meta CEO马克·扎克伯格的直接批评。奥特曼透露，扎克伯格曾投入1亿美元试图挖角OpenAI团队成员，但未能成功，随后遭到奥特曼的冷嘲热讽。

在采访中，奥特曼表达了对实现超级人工智能的强烈信心，强调OpenAI坚持"使命优先"的创新文化。他认为这种文化是OpenAI能够在激烈竞争中保持领先地位的关键因素。奥特曼还直言不讳地批评了Meta的企业文化，称扎克伯格团队缺乏真正的创新能力，企业文化"一塌糊涂"。

这些言论反映了当前AI领域顶级公司之间的激烈竞争态势，也展现了不同公司在人才争夺和技术路线选择上的分歧。奥特曼的发言进一步凸显了OpenAI在AI领域的自信态度和对未来发展方向的坚定信念。

相关链接：

社交媒体：https://x.com/imxiaohu/status/1935161033230070249

AI播客功能上线豆包电脑端

字节跳动旗下AI助手豆包（Doubao）在电脑端新增了AI播客功能，支持用户一键将任意内容转换为播客音频。这一功能的推出标志着AI在内容创作领域的进一步拓展，为用户提供了更加便捷的音频内容生成方式。

该功能操作简单直观，用户只需将文本内容输入系统，即可自动生成高质量的播客音频。这种内容自动转音频的能力大大提高了内容创作的效率，特别适合需要快速生成音频内容的创作者和企业用户。

豆包AI播客功能的推出体现了字节跳动在AI应用场景拓展方面的持续努力。通过将先进的语音合成技术与用户友好的界面相结合，该功能为用户提供了高效便捷的音频内容创作工具，有望在播客制作、教育培训、企业宣传等多个领域发挥重要作用。

相关链接：

社交媒体：https://x.com/imxiaohu/status/1935166838763307133

Midjourney 发布 V1 视频生成模型

知名AI图像生成平台Midjourney于2025年6月18日正式发布了其首个AI视频生成模型V1，标志着该公司从静态图像创作向动态多媒体内容生产的重大转型。V1模型支持生成5到20秒的视频内容，提供"低动感"和"高动感"两种模式选择。

V1模型延续了Midjourney在图像生成领域的高品质与艺术风格，生成的视频效果令人惊艳。该模型采用图像转视频的技术路线，用户可以上传自有图片或使用Midjourney其他模型生成的图像作为输入，系统将基于此生成四段五秒的视频片段。

在定价策略上，Midjourney保持了其一贯的高性价比特色，每月仅需10美元的基础计划即可使用V1模型，专业和超级计划用户还可以享受更多功能。该模型最高支持生成20秒的视频内容，为用户提供了灵活的创作选择。

V1模型的推出使Midjourney正式进入视频生成领域的竞争，与Sora、Runway等竞争对手形成直接对抗。该公司表示，V1模型是其实现"实时模拟世界"愿景的第一步，未来将继续优化和扩展视频生成能力。

相关链接：

官方网站：https://midjourney.com/
详细介绍：https://www.xiaohu.ai/c/xiaohu-ai/midjourney-ai-v1-video-model-5-20
社交媒体：https://x.com/imxiaohu/status/1935502706338316586

Google 推出 Search Live 语音搜索功能

Google推出了全新的Search Live语音搜索功能，支持连续语音问答，为用户提供边聊边搜的丝滑体验。这一功能代表了搜索交互方式的重大革新，将传统的文本搜索转变为更加自然的对话式体验。

Search Live的核心特色在于其连续对话能力，用户可以通过语音与搜索引擎进行持续的交互，无需重复唤醒或重新开始对话。系统不仅能够理解用户的语音查询，还能在回答中附带相关的网页链接，方便用户进行核实和深入了解。

该功能还支持应用间的无缝对话切换，用户可以在不同应用之间保持对话的连续性。同时，系统提供文字模式切换选项，满足不同场景下的使用需求。所有的对话历史都可以追溯，为用户提供了完整的搜索记录管理功能。

Search Live的推出体现了Google在AI驱动的搜索体验方面的持续创新，通过结合先进的语音识别、自然语言处理和搜索技术，为用户提供了更加智能和便捷的信息获取方式。

相关链接：

官方更新页面：https://gemini.google.com/updates
详细介绍：https://www.xiaohu.ai/c/xiaohu-ai/google-search-live
社交媒体：https://x.com/imxiaohu/status/1935507730175058079

OpenAI 开源基于 Agents SDK 的客服演示项目

OpenAI正式开源了一个基于其Agents SDK的客服演示项目，展示了如何利用多智能体协作技术构建复杂的AI客服系统。该项目模拟了航空公司客服场景，能够处理改签、取消、问讯等多种客户服务请求。

该演示项目采用了多智能体协作架构，每个AI智能体专门负责处理不同类型的事务，就像真人客服一样能够"转接"用户的问题。系统包含分流代理、座位预订代理、航班状态代理、取消代理和FAQ代理等多个专业化智能体，确保用户查询能够被路由到最合适的处理单元。

项目的技术架构包括Python后端和Next.js前端两个主要组成部分。后端负责处理智能体编排逻辑，实现Agents SDK的客服示例；前端则提供智能体编排过程的可视化界面和聊天交互功能。整个系统还集成了相关性防护栏和越狱防护栏，确保对话始终聚焦于航空相关主题。

该开源项目为开发者提供了学习和实践多智能体系统构建的宝贵资源，展示了如何使用Agents SDK快速搭建复杂的AI应用系统。项目采用MIT许可证，鼓励开发者基于此进行二次开发和创新。

相关链接：

GitHub仓库：https://github.com/openai/openai-cs-agents-demo
Agents SDK文档：https://openai.github.io/openai-agents-python/
详细介绍：https://www.xiaohu.ai/c/a066c4/openai-agents-sdk-ai
社交媒体：https://x.com/imxiaohu/status/1935536488810451358

MiniMax 发布 Hailuo 02：全球领先的视频生成模型

上海人工智能企业MiniMax于2025年6月18日正式发布了其新一代视频生成模型Hailuo 02，该模型在Artificial Analysis榜单中位列全球第二，超越了Google Veo 3，成为目前唯一公开可用且同时兼顾画质、复杂控制与高性能的视频生成模型。

Hailuo 02支持原生1080P高清视频的直接输出，能够生成10秒一镜到底的高质量视频内容。该模型在场景快速变换中的时空一致性表现出色，特别是在处理类似体操这种高度复杂场景方面具有独特优势，是目前全球唯一能够处理此类复杂动作的模型。

该模型强调真实物理建模与复杂动作生成能力，适用于动画制作、广告创意、电影特效等多个专业场景。Hailuo 02的推出旨在帮助全球创作者更充分地释放想象力，提升视频质量，同时降低创作门槛，为视频内容创作领域带来革命性的变化。

MiniMax表示，Hailuo 02的发布是其"MiniMax Week"系列发布活动的重要组成部分，继前一日重磅开源M1模型之后，进一步展示了公司在多模态AI技术方面的深厚实力。该模型现已在海螺视频的Web、APP以及开放平台API中推出，为用户提供便捷的访问方式。

相关链接：

官方网站：https://www.minimaxi.com/news/minimax-hailuo-02
产品页面：https://www.minimaxi.com/
详细介绍：https://www.xiaohu.ai/c/xiaohu-ai/minimax-hailuo-02

本周报由Manus AI整理编写，信息来源于各官方渠道和技术社区。

< 6.4 AI开源社区周报【六月Week2】

6.6 AI开源社区周报【六月Week4】 >

1 关于MyShell

2 新手指南

3 炉边对话

4 Shell Agent

5 常用问答

6 AI 开源社区周报

6.5 AI开源社区周报【六月Week3】

目录