2025年7月人工智能前沿发展总结
对2025年7月的人工智能发展前沿进行了详细总结,包括 Grok-4 的发布、Kimi-K2 的发布、Qwen3 的更新、GLM-4.5 的发布等
·
文章目录
7月2日
百度发布多模态生成大模型 MuseStreamer
- 在今天的百度 AI Day 开放日上,百度商业研发团队发布自研多模态生成大模型
MuseStreamer,搭配新发布的 AI 视频生成平台“绘想”,让视频创作直接迈入电影级 AI 时代。 MuseStreamer不只是简单将图像转换为视频,而是融合了音效、人声、节奏、镜头语言的全流程导演。它支持 10s 的动态视频,画质直达电影级水准,还可以灵活控制场景、动作、镜头感。除了性能之外,该模型的性价比也是直接达到天花板,同时具有极快的速度。- 此次正式发布的是
720P的Turbo版本,擅长生成人物、动漫,人物动作一致性优秀,运动幅度大,表情遵循优秀,表现力极强,适合大部分创作者 ;之后还会发布更轻量的Lite版本和Pro版本,以及全系列的有声版。Lite版本也是720P,该版本生成速度超快(仅需30s),价格极有竞争力,适合追求极致性价比的用户;Pro 版本为1080P,有电影级的画质和运镜,极大提升表现力,适合专业创作者和影视生产机构。有声版各清晰度都支持一体化生成音效和台词,适合对同期声音和画面有极致追求的用户。 - 根据海外权威视频生成评测榜单
VBench Leaderboard中,MuseStreamer以总分89.38%的成绩,登上VBench-I2V图生视频榜单第一。该模型对中文语义有着极为精确的理解,有着极其精细化的视频结构化描述语言,有着电影级动态美学生成的高清画质。 - 另外,在此次开放日上,百度同时宣布进行十年来的最大改版,从搜索框、搜索结果到搜索生态全面革新。
MuseStreamer 体验平台:https://huixiang.baidu.com/
7月3日
智源发布统一图像生成模型 OmniGen2
- 2024 年 9 月智源发布
OmniGen模型,该模型的高度通用性和简洁架构受到了 AI 社区的广泛好评。该模型可以支持文本生成图像、图像编辑、主题驱动生成等多种任务,颠覆了传统多模态模型的复杂设计。 - 今天,全新的
4B版本的OmniGen2发布,其在继承了OmniGen2简洁架构的基础上,大幅度提升了上下文理解和指令遵循能力,并且在图像生成质量上也有了质的飞跃。 - 令人振奋的是,
OmniGen2的模型权重、训练代码和训练数据完全开源。仅发布一周,其在 Guthub 上的星标就突破 2000,在 X 上的相关话题浏览量达到数十万。
OminiGen2 体验平台:https://genai.baai.ac.cn/
全球首款 AI 原生游戏引擎 Mirage 发布
- 来自谷歌、英伟达、微软等八家机构的研究者联手,共同推出了一款实时 AI 游戏引擎
Mirage。它不同于传统的游戏引擎,而是玩家想象力的放大器,任何人都可以随心所欲地用这款引擎进行游戏开发。 Mirage的登场标志着未来的游戏产业将会发生巨变,其背后是一个实时的交互式的世界模型,基于Transformer和扩散模型完成训练。该框架整合了多项关键创新,因此开源生成可控且高保真的视频游戏序列。
7月4日
天工开源 SOTA 级奖励模型 Skywork-Reward-V2
- 昆仑万维团队在 2024 年 9 月发布并开源了奖励模型
Skywork-Reward,聚焦于奖励模型的核心使命:理解并对其人类偏好。目前该模型已经累计获得了 75 万次下载,充分验证了该系列在开源社区的实际价值和作用。 - 经过九个月的持续优化后,
Skywork-Reward-V2今天正式登场。该系列包括八个基于不同基座模型和不同大小的奖励模型,参数从6亿到80亿。 Skywork-Reward-v2在多个能力维度上都可以更好地理解人类、对齐人类,包括对人类偏好的通用对齐、客观正确性、安全性、风格偏差的抵抗能力等。实测后证明,该系列模型在七个主流奖励模型评测基准上都刷新了 SOTA。
第一个超越人类的 Excel 表格整理工具 Shortcut 发布
- 一款名为
Shortcut的 Excel 表格整理 AI 工具发布,其号称是第一个超越人类的 Excel 智能体。它可以一次性完成大多数 Excel 知识工作任务,甚至在大约十分钟内就解决了 Excel 世界锦标赛的复杂案例,准确率超过80%,这比人类快十倍。 Shortcut具有和 Excel 近乎完美的功能兼容性,可以直接编辑、导入和导出文件。它不仅局限于基础的 Excel 操作,还可以处理复杂的金融建模任务。- 目前,
Shortcut存在一些局限性,例如在格式化方面比较懒、在长时间多轮对话中表现不佳、处理大型 PDF 时可能遇到上下文限制。 Shortcut目前处于早期预览阶段,可以在 X 上评论以获得邀请码。
Shortcut 体验地址:http://tryshortcut.ai
7月9日
Veo-3 推出用图像生成带音频的视频功能
- 刚刚,当红的 AI 视频模型
Veo-3迎来了重磅升级。这一次,只需要一张图像即可生成带有音频的视频。 - 另外,使用新的
Veo-3模型,同一个角色可以在多个镜头下,保持高度一致性。 - 用户只需要进入谷歌的
Flow创作平台即可进行体验,但是目前GeminiVeo-3的入口目前还无法使用更新后的模型。
7月10日
最强大模型 Grok-4 发布【重要】
- 刚刚的发布会上,xAI 正式发布
Grok-4。在此次发布会上,共发布了Grok-4系列的两个模型,分别是单智能体版本Grok-4和多智能体版本Grok-4-Heavy。 - 该模型不仅超过了大多数人类研究生,甚至比博士还要厉害。马斯克多次强调,
Grok-4现在在所有学科都达到了博士后水平,没有例外。- 模型在所有的 SAT 考试(美国高考)中都能拿到满分,即使它从未见过这些题目。
- 在 GRE 考试中,它在所有的学科领域几乎都能拿到满分。
- 在人类最后的考试(HLE)中,
Grok-4得分为38%,而Heavy版本的得分达到了44%,使用工具可以达到史无前例的50.7%。 - 在
ARC-AGI-2测试集上,Grok-4的准确率高达15.9%,是第二名Claude-4-Opus的近两倍,是第三名o3的 2.5 倍;在Vending-Bench商业评测数据集上,Grok-4的赚钱能力在所有榜单名列第一。
- 另外,
Grok还有一种语音模型,可以安慰人、唱歌剧,还能严格遵循指令。 - 从训练量来看,
Grok-2到Grok-3提升了十倍,而Grok-3到Grok-4又提升了十倍,且从Grok-3到Grok-4的过程中,大量算力被投入到推理和强化学习过程中。 Grok-4的价格为每月 30 美元,而Grok-4-Heavy的价格为每个月 300 美元,比之前因为昂贵而出名的 ChatGPT Pro 会员还高 100 美元。另外,Grok-4的 API 也已经向所有开发者正式开放,并将登录第三方云平台。
截止7月10日,Grok-4 在问题解决、科学、数学、编程上均为所有大模型中最强。
7月11日
Vidu Q1 推出参考生功能
- 今天,
Vidu Q1推出参考生功能,即可以通过上传人物、道具、场景等参考图,即可将多个参考图中包含的元素融合为一段视频素材。 - 价格方面,使用该功能生成一段长五秒,
1080p的视频,只需要20积分。根据官方标准版套餐的48元/月(包含800积分)进行换算,只需要1.2元即可完成生成,还是很划算的。
Vidu Q1 体验地址:https://www.vidu.cn/create
月之暗面发布 SOTA 级数学证明模型
- Kimi 发布了
72B参数的数学证明模型Kimina-Prover,该模型在定理证明方面超过了具有671B参数的DeepSeek-Prover-V2,实现 SOTA 级别表现。 - 该模型由 Numina 组织和 Kimi 研发团队联合打造。
7月12日
月之暗面开源 SOTA 级别非思考模型 Kimi-K2【重要】
- 昨天晚上,月之暗面发布并开源了
Kimi K2大模型,该模型的参数量达到1T,其中激活参数为32B,支持128K的上下文长度。新模型同步上线并更新了 API,价格是16元 / 1M输出。 - 此次开源的共有两款模型,分别是
Kimi-K2-Base和Kimi-K2-Instruct:前者是未经指令微调的基础预训练模型,适合科研与自定义场景;后者是通用指令微调版本(非思考模型),在大多数问答与 Agent 任务中表现卓越。均可以商用。 - 从各个基准测试的成绩来看,
Kimi-k2超过了DeepSeek-V3-0324、Qwen3-235B-A22B等开源模型,成为了开源模型新 SOTA;同时在多项性能指标上也能赶超GPT-4.1、Claude-4-Opus等闭源模型,展现出领先的知识、数学推理与代码能力。 - 根据网友一段时间的测试,
K2模型的代码能力是一个亮点,并且因为其价格很低,因此可能可以成为Claude-4-Sonnet的有力开源平替。
7月14日
智源发布最强具身大模型 RoboBrain-2.0-32B
- 智源研究院发布了具身大脑
RoboBrain-2.0-32B,以及跨本体大小脑协同框架RoboOS-2.0单机版。 RoboBrain-2.0-32B集成感知、推理和规划于一体,是一款面向真实环境的“通用具身大脑”,在多项权威具身智能基准上全面刷新记录。该模型此前的7B版本,具有紧凑高效的模型结构,轻量化设计完成适配边缘设备部署需求,适合于在低资源的环境下稳定运行,同时相比主流的开闭源模型仍然具有强劲的实力。
7月15日
秘塔发布国内首个免费公开深度研究产品
- 刚刚,秘塔AI发布了国内第一家免费公开可用的”深度研究“产品。
- 该产品可以直接对标海外的
Deep Research能力,性能非常强大:在BrowseComp等基准测试集超越了上周刚刚开源且达到 SOTA 效果的WebSailor模型,准确率有了非常高的提升。
7月17日
全球最强开源定理证明模型 Goedel-Prover-V2 发布
- 刚刚,来自普林斯顿大学、清华大学、英伟达、斯坦福大学等机构的研究者联手,开发了数学定理证明模型
Goedel-Prover-V2。上一代的Goedel-Prover已经被 COLM 2025 顶会录用,曾在一些基准上刷新 SOTA;这一次发布的模型共有 32B 和 8B 两个版本,可以用更少的算力,在多个基准测试集上获得 SOTA。 - 在 IMO 级别的基准 MathOlympiadBench 上,
Goedel-Prover-V2解决了 73 个问题;相比之下,之前的DeepSeek-Prover-671B仅解决了 50 个问题。
谷歌推出替代 Transformer 的 MoR 架构
- 谷歌刚刚推出了一种全新的底层架构
Mixture-of-Recursions(MoR)。相较于Transformer,该架构的推理速度提高了两倍,而 KV 内存消耗却减半,这样的效果首次在单一框架中实现。 - MoR 架构使用同一组参数处理不同任务时,会动态分配计算资源。就像给大语言模型开了一个双层 buff,模型性能和效率全都要。
亚马逊发布企业级 AI 智能体搭建工具包
- 亚马逊在刚刚的纽约峰会上正式发布了一个企业级的 AI 智能体搭建工具包
Amazon Bedrock AgentCore,彻底考虑到了 AI 智能体在生产过程中的七大核心服务,照顾到了所有部署细节。 - 七大核心服务包括:
AgentCore Runtime用于提供低延迟的无服务器环境,支持会话隔离;AgentCore Memory用于管理会话和长期记忆,为模型提供上下文信息,帮助智能体从过去的交互中学习;AgentCore Observability用于提供代码执行的逐步可视化,可以帮助开发者调试;Agent Identity用于让 AI 智能体安全地访问亚马逊云科技服务和第三方工具,支持基于用户身份或预授权用户同意的操作;AgentCore Gateway用于将现有的 API 和 Lamba 函数转换为可用于代理的工具;Agent Brower提供托管的网页浏览器实例,扩展智能体的自动化工具流;AgentCore Code Interpreter用于提供隔离环境以运行生成的代码。
7月18日
ChatGPT Agent 发布【重要】
- 今天凌晨,OpenAI 发布了全新的智能体
ChatGPT Agent,实现了通用智能体能力的关键升级。 - 和之前的基础大模型升级不同,通用智能体可以自动利用多种工具进行规划,帮助用户完成复杂的任务,包括自动浏览用户日历、生成可编辑的PPT和运行代码等。智能体可以连接用户的 Gmail、Github 网站获取信息并解决问题,使用 API 来访问各种应用。
- 智能体加持下 AI 的能力获得了大幅度提升:基于
ChatGPT Agent的模型在 HLE 基准上取得了41.6%的分数,是o3和o4-mini模型的几乎两倍。 - 目前,
ChatGPT Agent已经面向 Pro、Plus 和 Team 计划的订阅用户开放,想要使用的用户只需要在 ChatGPT 的工具下拉菜单中选择 Agent 模式即可。Pro 用户每月通常最多可以使用400次智能体,而其他付费用户最多可以使用40次。
7月22日
Qwen3 非思考模型超越 Kimi-K2 【重要】
- 在
Kimi-K2发布不到两周,Qwen3就迎来了最新升级:更新后的Qwen3-235B-A22B-2507的总参数量仅为Kimi-K2的1T参数量的四分之一,但是却在基准测试性能上超越了Kimi-K2,尤其是在数学推理能力上相较于上一个版本的Qwen3有了极大的提升。 - 新模型采用 MoE 架构,参数量为
235B,其中非嵌入参数为234B,而推理时的激活参数为22B。 - 另外,Qwen 官方宣布不再使用混合思维模式,而是分别训练 Instruct 和 Thinking 模型,所以,此次发布的新模型只能支持非思考模式。
- 升级后的
Qwen3目前已经可以在网页上使用,但是通义 APP 暂未更新。
7月23日
Qwen3-Coder 成为最强开源编程模型【重要】
- 刚刚,阿里通义大模型团队开源了
Qwen3-Coder,刷新了非推理模型 AI 编程 SOTA。不仅在开源界超过了DeepSeek-V3和Kimi-K2,闭源界超过了GPT-4.1,还赶上了编程业界标杆、闭源的Claude-4-Sonnet。 Qwen3-Coder包含多个尺寸,其中最强版本的Qwen3-Coder-480B-A35B-Instruct是450B的 MoE 模型,激活参数为35B,原生支持256K上下文,还可以通过YaRN扩展到 1M 上下文。- 另外,通义团队基于
Gemini Code,进行了 Prompt 和工具调用协议适配,二次开发并开源了命令行工具Qwen-Code。
7月26日
首个具有原生记忆的大模型架构 Yan-2.0-Preview 推出
- 在今年的世界人工智能大会上,国内AI企业 RockAI 提出了一种非
Transformer的架构Yan-2.0-Preview。该架构极大降低了模型进行推理时的计算复杂度,因此可以在算力非常有限的设备上离线运行,例如树莓派。 - 与其他可以在设备端运行的“云端大模型的小参数版本”不同,这个模型拥有一定的原生记忆能力,可以在执行推理任务时把记忆融入自己的参数。因此,基于该架构构建的大模型不会像其他模型一样,每一次的聊天都是新的,而是随着时间的推移越来越了解使用它的用户,并基于用户的信息来回答问题。另外,与其他基于
Transformer或非基于Transformer的模型相比,Yan-2.0-Preview在生成、理解一集推理等多个关键指标上都有不错的优势。 - 在本次世界人工智能大会上,RockAI 展出了一个只有
3B的基于新架构多模态大模型的机械手。部署到端侧后无论是对话效果海上延迟几乎都可以媲美云端运行的比它大得多的模型,而且具有多模态能力。
阶跃星辰开源多模态 SOTA 模型 Step-3【重要】
- 在世界人工智能大会上,阶跃星辰发布并开源了新一代旗舰模型
Step-3,标志着多模态大模型进入了一个新的里程碑。 Step-3采用了原创的MFA架构,通过模型和系统联合创新,实现了行业领先的推理效率和极致的性价比。Step-3在多个评测数据集上取得了开源多模态推理模型领域的 SOTA;另外,其对所有芯片都很友好,它通过系统性的技术创新实现了极高的推理效率,其在国产芯片上的推理效率最高可以达到DeepSeek-R1的300%。
Qwen3 推理模型达到 SOTA
- 在
Qwen3-Coder发布后没多久,Qwen3系列最强推理模型Qwen3-235B-A22B-Thinking-2507正式开源。该模型一登场就刷新各种 SOTA,在各项评测中一举拿下全球最强开源模型的称号,直接比肩顶尖闭源模型Gemini-2.5-Pro和o4-mini。 Qwen3推理模型一举拿下了开源模型中基础模型、编程模型和推理模型全球最强。- 新的推理模型主要提升了三方面的能力:逻辑推理、数学、科学和编程任务上的性能;指令遵循、使用工具和生成文本的能力;支持
256K上下文,适合于高度复杂的推理任务。
设计智能体顶流 Lovart 正式开放
- 刚刚,设计顶流智能体
Lovart宣布向所有人开放邀请码。该智能体层上线五天就引来十万人排队体验,时隔两个月之后终于正式上线。 - 另外,在此次发布中,Lovart 全新重磅推出了
ChatCanvas玩法。该玩法被视为具备视觉理解的Figma+Notion+ChatGPT的变体,可以让人和 AI 设计师一起在同一张画布上无限配合。
多模态开源 SOTA 大模型 Intern-S1 发布【重要】
- 今天,上海人工智能实验室发布并开源了“书生”科学多模态大模型
Intern-S1,多模态能力达到全球开源第一,文本能力比肩国内外一流模型,科学能力全模态达到国际领先。该模型是融合科学专业能力的基础模型,综合性能为当前开源模型中最优。 - 基于
Intern-S1的科学发现平台Intern-Discovery也于近期上线,帮助研究者、研究工具和研究对象三者能力全面提升。 - 目前,中国的开源模型通过算法优化(例如动态精度调节、MoE 架构)和开源协作生态,在性能上接近甚至超越国际上领先的闭源模型,同时大幅降低了算力需求。
7月28日
智谱开源超强模型 GLM-4.5【重要】
- 刚刚,智谱低调发布并开源了最新的旗舰模型
GLM-4.5。这是一个全新的融合大模型,相较于其他模型卷参数和刷榜单,该模型直接不跟风,而是狙击GPT-5:原生融合了智能体、推理和编程能力,走向更加通用和高效的AI。 - 在对模型的通用能力进行综合衡量时,
GLM-4.5在十二个基准测试集上综合平均分获得了全球模型第三、国产模型第一、开源模型第一,仅次于Grok-4和o3,超过了Claude-4-Opus、DeepSeek-R1-0528和Kimi-K2等众多对手。 GLM-4.5采用 MoE 架构,包含GLM-4.5和GLM-4.5-Air两个产品。GLM-4.5总参数量达到355B,激活参数为32B;GLM-4.5-Air总参数量为106B,激活参数为12B。- 生成速度是
GLM-4.5的一大亮点:其最快版本的生成速度达到了100 token/s,远超其他模型。Kimi-K2的生成速度大约为25 token/s,Claude-4的生成速度大约为34-37 token/s,GLM-4.5和GLM-4.5-Air的生成速度达到了30-50 token /s,GLM-4.5X和GLM-4.5-AirX达到了60-100 token/s。 - 除了生成速度之外,价格也是该模型的一大亮点:API 调用价格为
0.11美元 / 1M token,输出则为0.28美元 / 1M token。该定价远低于主流模型定价。 - 目前,
GLM-4.5已经在智谱清言和 Z.ai 上线,并且用户可以免费体验满血版。 - 除了文本生成之外,
GLM-4.5还支持更高级的 AI PPT 生成。该模型生成的 PPT 的配色和风格并不像其他智能体一样单一模板背景,而且制作好的PPT也可以一键发布,分享给任何人。
7月29日
天气预报 AI 模型 风宇 发布
- 国家卫星气象中心联合南昌大学和华为共同研发并发布了全球首个全链式空间天气人工智能预报系统
风宇。 - 该模型在国际上首次实现全链路的智能建模,首创空间天气上下游智能耦合技术,基于自主可控 AI 框架的算子领域优化技术。模型具有在太阳风、磁层和电离层各个区域优秀的24小时短临预测能力。
全球首个开源 MoE 架构视频生成模型 Wan-2.2 发布
- 阿里发布全球首个开源的
MoE架构视频生成模型Wan-2.2,其最大的亮点在于具备了电影级的美学控制能力。 - 该模型首次在视频扩散模型中引入了
MoE架构,并且通过训练数据规模的跃升和数据中融入的特别筛选的美学数据集,让模型具备了电影级的美学控制能力。 - 该模型遵循
Apache-2.0开源协议。
7月30日
ChatGPT 推出学习模式
ChatGPT在今天凌晨推出了学习模式。在该模式下,ChatGPT不再是针对用户的查询给出答案,而是会帮助用户一步步解决自己的问题。- 在用户使用学习模式时,
ChatGPT会给出一些引导性问题。这个问题会根据用户的目标和技能水平调整答案,从而帮助他们加深理解。学习模式的目标是吸引学生学习并保持参与型,而不仅仅是 AI 完成一些工作。
Qwen3 推出高效率非思考模型
- 今天凌晨,
Qwen3-30B-A3B模型更新为Qwen3-30B-A3B-Instruct-2507。该版本的模型是一个非思考模式模型,其亮点在于仅激活3B参数,就展现出和业界顶尖闭源模型(例如谷歌的Gemini-2.5-Flash非思考模式和GPT-4o)相媲美的实力。即使与DeepSeek-V3-0324等模型对比,该模型可以基本追平甚至超过。 - 该模型的发布标志着模型效率和性能优化上的又一次重大突破。
7月31日
地球绘制大模型 AlphaEarth Foundations 发布
- 谷歌 DeepMind 发布了
AlphaEarth Foundations模型,实现了高精度地对地球进行绘制。它将为科学家提供近乎实时的地球预测。 - 该模型主要解决了数据过载和信息不一致两大问题,也就是观测数据多但高质量标注数据少对绘制全球地图带来的困难。
- 该模型生成的卫星嵌入数据集现在已经被联合国粮农组织、哈佛森林邓超过 50 个全球组织使用。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)