1 关于MyShell

2 新手指南

3 炉边对话

4 Shell Agent

5 常用问答

6 AI 开源社区周报

6.10 AI开源社区周报【八月Week1】

史无前例的开源发布潮 - 第9周

2025年8月1日 - 2025年8月8日

7

重磅模型发布

3.1M

GPT-5推文浏览量

720p

Genie 3分辨率

1.03M

X平台总浏览量

📋 目录

📊 执行摘要

本周AI开源社区迎来史无前例的发布潮,OpenAI GPT-5正式发布成为最大亮点,同时6个重磅开源模型同时发布,标志着AI开源技术进入全新发展阶段。OpenAI在发布GPT-5的同时时隔5年首次开源模型权重,Google DeepMind推出革命性世界模型Genie 3,中国企业在开源领域持续领先。

核心亮点

  • GPT-5震撼发布:OpenAI最新旗舰模型,AI界面交互新时代

  • OpenAI开源转向:gpt-oss系列打破闭源传统

  • 世界模型突破:Genie 3实现实时交互

  • 中国开源领先:腾讯、阿里、小红书、智谱全面发力

🚀 重磅发布

1. OpenAI GPT-5正式发布:AI界面交互新时代

发布时间:2025年8月7日 | 重要意义:OpenAI最新旗舰模型,标志着AI能力的重大飞跃

核心特点:

  • 动态界面生成:AI开始生成自己的UX,界面变得更加动态化

  • 安全性全面提升:在开放和封闭模型中都提高了安全标准

  • 能力显著进步:引入了有意义的能力进步和严格的安全测试

  • 新安全训练技术:从事实性到欺骗检测的全新安全训练技术

发布数据:官方推文浏览量3.1M,Sam Altman推文780K浏览量,安全团队推文577K + 439K浏览量。

技术亮点:用户可以尝试"use beatbot to make a sick beat to celebrate gpt-5"等指令,体验AI生成动态界面的新功能。GPT-5团队将举行AMA活动。

行业影响:与gpt-oss开源模型同时发布,完成了OpenAI"巨大的一周",在安全性和能力之间实现了新的平衡,标志着AI界面交互进入新时代。

2. OpenAI开源转向:gpt-oss系列震撼登场

发布时间:2025年8月5日 | 重要意义:OpenAI时隔5年首次开源模型权重

模型规格:

  • gpt-oss-120b:1170亿参数,推理性能属开源第一梯队

  • gpt-oss-20b:210亿参数,可在端侧设备本地部署

技术特点:Apache 2.0许可证完全开源,专门针对推理任务优化,支持16GB显存的普通消费级显卡运行。

行业影响:改变OpenAI传统闭源策略,与中国开源模型形成直接竞争,推动全球AI开源生态发展。

3. Google DeepMind:Genie 3重新定义世界模型

发布时间:2025年8月5日 | 技术突破:首个支持实时交互的世界模型

核心能力:

  • 实时生成:24帧/秒生成720p分辨率3D世界

  • 长时间一致性:支持数分钟连贯交互

  • 文本驱动:根据文本提示生成动态世界

  • 物理仿真:支持真实物理引擎交互

应用前景:游戏开发革命、VR/AR沉浸式环境、教育培训模拟、元宇宙基础设施。

4. 小红书首次开源:dots.vlm1多模态突破

发布时间:2025年8月6日 | 重要意义:社交平台首次进军AI开源领域

技术架构:

  • 视觉编码器:12亿参数NaViT,从零开始训练

  • 语言模型:基于DeepSeek V3 LLM构建

  • 动态分辨率:支持灵活的图像输入处理

性能表现:视觉感知与推理达到准SOTA水平,逼近Gemini 2.5 Pro闭源模型性能,实测能力包括色盲图识别、数独破解、高考数学题解答。

5. 腾讯混元:小尺寸模型全面布局

发布时间:2025年8月4日 | 战略意义:端侧AI部署的重要突破

模型矩阵:

  • 混元-0.5B:5亿参数,手机端AI,极低功耗

  • 混元-1.8B:18亿参数,平板设备,低功耗

  • 混元-4B:40亿参数,笔记本电脑,消费级CPU

  • 混元-7B:70亿参数,桌面应用,消费级显卡

应用场景:手机端智能助手、智能座舱系统、智能家居设备、边缘计算应用。

6. 阿里通义千问:图像生成新纪元

发布时间:2025年8月5日 | 技术突破:首个图像生成基础模型

Qwen-Image核心特点:

  • 200亿参数:采用MMDiT架构

  • 复杂文本渲染:超越GPT-4o中文渲染能力

  • 精确图像编辑:支持细粒度控制

  • 多场景应用:书籍封面、海报、PPT等专业设计

同期发布:Qwen3-4B-Instruct-2507、Qwen3-4B-Thinking-2507、Qwen-Flash API支持1M超长上下文。

7. 智谱GLM-4.5:Agent专精模型

发布时间:2025年7月28日 | 重大成就:发布仅10小时冲上Hugging Face全球第一

核心定位:

  • Agent专精:专为AI代理应用打造

  • 复杂推理:显著提升的推理能力

  • 实用性强:一句话造出搜索引擎

  • 行业认可:海外网友称"中国AI开源四巨头已成"

技术特点:针对Agent场景深度优化,强化复杂任务推理能力,支持多步骤任务执行。

📱 X平台官方动态

@ComfyUI - 24.3K关注者

重要推文浏览量:78.4K | 总互动量:1.0K

Wan2.2开源支持(置顶推文):Day 0原生支持,MoE架构,Apache 2.0许可证,电影级美学控制。77K浏览量,801点赞。

Artist Spotlight活动:Inner Reflections专场直播,YouTube/X/Twitch同步。1.4K浏览量。

@bfl_ml - 35.8K关注者

重要推文浏览量:704K | 总互动量:4.9K

FLUX.1 Krea [dev]发布:与@krea_ai合作的照片级真实感模型,无"AI感",自然细节。229K浏览量,1.9K点赞。

FLUX.1 Kontext:生成流匹配模型套件,理解文本和图像输入。475K浏览量,2.6K点赞。

@myshell_ai - 216.3K关注者

重要推文浏览量:171K | 总互动量:2.0K

ShellAgent 2.0介绍:App构建代理,从想法到应用,无需开发工具。154K浏览量,1.2K点赞。

运动成就:200+ AI专业人士,100+ 创作者社区,50+ 媒体报道。17K浏览量,393点赞。

@myshell_intern - 5.5K关注者

重要推文浏览量:80K | 总互动量:0.7K

Shellz Weekly Recap:7月26日-8月1日,ShellAgent 2.0发布和快速采用回顾。10K浏览量,133点赞。

蛇年庆祝活动:Transform your avatar活动,70K浏览量,456点赞。

📈 技术趋势分析

1. 开源vs闭源竞争格局重塑

中国坚持开源路线:腾讯、阿里、智谱、小红书持续投入,技术突破频现,形成完整开源技术生态。

美国战略分化:OpenAI首次大规模开源战略重大调整,Google持续推进前沿技术,Meta考虑放弃开源Behemoth项目。

2. 多模态能力标配化

发展趋势:从可选特性转变为标准配置,视觉、语言、推理全面整合,跨模态理解能力显著提升。

技术突破:小红书dots.vlm1视觉推理新突破,阿里Qwen-Image图像生成专业化,Google Genie 3世界模型实时交互。

3. 端侧AI部署重要性凸显

驱动因素:隐私保护本地处理敏感数据,实时响应减少网络延迟,成本控制降低云端计算成本。

技术进展:腾讯混元小尺寸模型矩阵,OpenAI gpt-oss-20b端侧优化,消费级硬件性能提升。

4. 专业化模型兴起

发展方向:Agent专精(智谱GLM-4.5),图像生成(阿里Qwen-Image),推理优化(OpenAI gpt-oss系列),世界模型(Google Genie 3)。

技术特点:针对特定场景深度优化,在专业领域达到SOTA性能,实用性和易用性并重。

🌍 行业影响

技术层面影响

AI能力民主化加速:更多开发者可以使用先进AI技术,降低AI应用开发门槛,促进技术创新和应用普及。

端侧AI生态成熟:消费级设备运行大模型成为现实,隐私保护和实时响应需求得到满足,边缘计算市场快速发展。

多模态技术突破:视觉、语言、推理能力全面整合,跨模态理解和生成能力显著提升,为AGI发展奠定重要基础。

产业层面影响

开源生态繁荣:更多企业加入开源阵营,开源模型质量快速提升,形成良性竞争和协作环境。

竞争格局重塑:中国企业在开源领域领先,美国公司战略分化明显,全球AI技术竞争更加激烈。

商业模式创新:开源+服务的新型商业模式,平台化和生态化发展趋势,技术变现路径多样化。

社会层面影响

技术普惠实现:AI技术惠及更广泛人群,降低技术使用成本,促进数字化转型。

创新门槛降低:小团队也能构建强大AI应用,促进创业和创新活动,加速技术扩散和应用。

人才需求变化:对AI开发和应用人才需求增加,技能要求向应用和创新倾斜,教育和培训体系需要调整。

📊 重要意义

本周标志着AI开源技术进入全新发展阶段,中国企业在开源领域的领先地位进一步巩固,全球AI开源生态正在经历深刻变革。OpenAI的开源转向、Google的世界模型突破、中国企业的全面发力,共同推动了AI技术的民主化进程。

从技术层面看,万亿参数时代的开启、多模态能力的标配化、端侧AI的普及,都预示着AI技术正在从实验室走向千家万户。从产业层面看,开源生态的繁荣、竞争格局的重塑、商业模式的创新,正在重新定义AI产业的发展方向。

这一切变化的背后,是AI技术从"少数人的游戏"向"全民的工具"的根本性转变。未来,我们有理由相信,AI将真正成为推动人类社会进步的重要力量