文章目录

7月2日

百度发布多模态生成大模型 MuseStreamer

  • 在今天的百度 AI Day 开放日上,百度商业研发团队发布自研多模态生成大模型 MuseStreamer,搭配新发布的 AI 视频生成平台“绘想”,让视频创作直接迈入电影级 AI 时代。
  • MuseStreamer 不只是简单将图像转换为视频,而是融合了音效、人声、节奏、镜头语言的全流程导演。它支持 10s 的动态视频,画质直达电影级水准,还可以灵活控制场景、动作、镜头感。除了性能之外,该模型的性价比也是直接达到天花板,同时具有极快的速度。
  • 此次正式发布的是 720PTurbo 版本,擅长生成人物、动漫,人物动作一致性优秀,运动幅度大,表情遵循优秀,表现力极强,适合大部分创作者 ;之后还会发布更轻量的 Lite 版本和 Pro 版本,以及全系列的有声版。Lite 版本也是 720P,该版本生成速度超快(仅需30s),价格极有竞争力,适合追求极致性价比的用户;Pro 版本为 1080P,有电影级的画质和运镜,极大提升表现力,适合专业创作者和影视生产机构。有声版各清晰度都支持一体化生成音效和台词,适合对同期声音和画面有极致追求的用户。
  • 根据海外权威视频生成评测榜单 VBench Leaderboard 中,MuseStreamer 以总分 89.38% 的成绩,登上 VBench-I2V 图生视频榜单第一。该模型对中文语义有着极为精确的理解,有着极其精细化的视频结构化描述语言,有着电影级动态美学生成的高清画质。
  • 另外,在此次开放日上,百度同时宣布进行十年来的最大改版,从搜索框、搜索结果到搜索生态全面革新。

MuseStreamer 体验平台https://huixiang.baidu.com/

7月3日

智源发布统一图像生成模型 OmniGen2

  • 2024 年 9 月智源发布 OmniGen 模型,该模型的高度通用性和简洁架构受到了 AI 社区的广泛好评。该模型可以支持文本生成图像、图像编辑、主题驱动生成等多种任务,颠覆了传统多模态模型的复杂设计。
  • 今天,全新的 4B 版本的 OmniGen2 发布,其在继承了 OmniGen2 简洁架构的基础上,大幅度提升了上下文理解和指令遵循能力,并且在图像生成质量上也有了质的飞跃。
  • 令人振奋的是,OmniGen2 的模型权重、训练代码和训练数据完全开源。仅发布一周,其在 Guthub 上的星标就突破 2000,在 X 上的相关话题浏览量达到数十万。

OminiGen2 体验平台https://genai.baai.ac.cn/

全球首款 AI 原生游戏引擎 Mirage 发布

  • 来自谷歌、英伟达、微软等八家机构的研究者联手,共同推出了一款实时 AI 游戏引擎 Mirage。它不同于传统的游戏引擎,而是玩家想象力的放大器,任何人都可以随心所欲地用这款引擎进行游戏开发。
  • Mirage 的登场标志着未来的游戏产业将会发生巨变,其背后是一个实时的交互式的世界模型,基于 Transformer 和扩散模型完成训练。该框架整合了多项关键创新,因此开源生成可控且高保真的视频游戏序列。

7月4日

天工开源 SOTA 级奖励模型 Skywork-Reward-V2

  • 昆仑万维团队在 2024 年 9 月发布并开源了奖励模型 Skywork-Reward,聚焦于奖励模型的核心使命:理解并对其人类偏好。目前该模型已经累计获得了 75 万次下载,充分验证了该系列在开源社区的实际价值和作用。
  • 经过九个月的持续优化后,Skywork-Reward-V2 今天正式登场。该系列包括八个基于不同基座模型和不同大小的奖励模型,参数从 6 亿到 80 亿。
  • Skywork-Reward-v2 在多个能力维度上都可以更好地理解人类、对齐人类,包括对人类偏好的通用对齐、客观正确性、安全性、风格偏差的抵抗能力等。实测后证明,该系列模型在七个主流奖励模型评测基准上都刷新了 SOTA。

第一个超越人类的 Excel 表格整理工具 Shortcut 发布

  • 一款名为 Shortcut 的 Excel 表格整理 AI 工具发布,其号称是第一个超越人类的 Excel 智能体。它可以一次性完成大多数 Excel 知识工作任务,甚至在大约十分钟内就解决了 Excel 世界锦标赛的复杂案例,准确率超过 80%,这比人类快十倍。
  • Shortcut 具有和 Excel 近乎完美的功能兼容性,可以直接编辑、导入和导出文件。它不仅局限于基础的 Excel 操作,还可以处理复杂的金融建模任务。
  • 目前,Shortcut 存在一些局限性,例如在格式化方面比较懒、在长时间多轮对话中表现不佳、处理大型 PDF 时可能遇到上下文限制。
  • Shortcut 目前处于早期预览阶段,可以在 X 上评论以获得邀请码。

Shortcut 体验地址http://tryshortcut.ai

7月9日

Veo-3 推出用图像生成带音频的视频功能

  • 刚刚,当红的 AI 视频模型 Veo-3 迎来了重磅升级。这一次,只需要一张图像即可生成带有音频的视频。
  • 另外,使用新的 Veo-3 模型,同一个角色可以在多个镜头下,保持高度一致性。
  • 用户只需要进入谷歌的 Flow 创作平台即可进行体验,但是目前 Gemini Veo-3 的入口目前还无法使用更新后的模型。

7月10日

最强大模型 Grok-4 发布【重要】

  • 刚刚的发布会上,xAI 正式发布 Grok-4。在此次发布会上,共发布了 Grok-4 系列的两个模型,分别是单智能体版本 Grok-4 和多智能体版本 Grok-4-Heavy
  • 该模型不仅超过了大多数人类研究生,甚至比博士还要厉害。马斯克多次强调,Grok-4 现在在所有学科都达到了博士后水平,没有例外。
    • 模型在所有的 SAT 考试(美国高考)中都能拿到满分,即使它从未见过这些题目。
    • 在 GRE 考试中,它在所有的学科领域几乎都能拿到满分。
    • 在人类最后的考试(HLE)中,Grok-4 得分为 38%,而 Heavy 版本的得分达到了 44%,使用工具可以达到史无前例的 50.7%
    • ARC-AGI-2 测试集上,Grok-4 的准确率高达 15.9%,是第二名 Claude-4-Opus 的近两倍,是第三名 o3 的 2.5 倍;在 Vending-Bench 商业评测数据集上,Grok-4 的赚钱能力在所有榜单名列第一。
  • 另外,Grok 还有一种语音模型,可以安慰人、唱歌剧,还能严格遵循指令。
  • 从训练量来看,Grok-2Grok-3 提升了十倍,而 Grok-3Grok-4 又提升了十倍,且从 Grok-3Grok-4 的过程中,大量算力被投入到推理和强化学习过程中。
  • Grok-4 的价格为每月 30 美元,而 Grok-4-Heavy 的价格为每个月 300 美元,比之前因为昂贵而出名的 ChatGPT Pro 会员还高 100 美元。另外,Grok-4 的 API 也已经向所有开发者正式开放,并将登录第三方云平台。

截止7月10日,Grok-4 在问题解决、科学、数学、编程上均为所有大模型中最强。

7月11日

Vidu Q1 推出参考生功能

  • 今天,Vidu Q1 推出参考生功能,即可以通过上传人物、道具、场景等参考图,即可将多个参考图中包含的元素融合为一段视频素材。
  • 价格方面,使用该功能生成一段长五秒,1080p 的视频,只需要 20 积分。根据官方标准版套餐的 48 元/月(包含 800 积分)进行换算,只需要 1.2 元即可完成生成,还是很划算的。

Vidu Q1 体验地址https://www.vidu.cn/create

月之暗面发布 SOTA 级数学证明模型

  • Kimi 发布了 72B 参数的数学证明模型 Kimina-Prover,该模型在定理证明方面超过了具有 671B 参数的 DeepSeek-Prover-V2,实现 SOTA 级别表现。
  • 该模型由 Numina 组织和 Kimi 研发团队联合打造。

7月12日

月之暗面开源 SOTA 级别非思考模型 Kimi-K2【重要】

  • 昨天晚上,月之暗面发布并开源了 Kimi K2 大模型,该模型的参数量达到 1T,其中激活参数为 32B,支持 128K 的上下文长度。新模型同步上线并更新了 API,价格是 16元 / 1M输出
  • 此次开源的共有两款模型,分别是 Kimi-K2-BaseKimi-K2-Instruct:前者是未经指令微调的基础预训练模型,适合科研与自定义场景;后者是通用指令微调版本(非思考模型),在大多数问答与 Agent 任务中表现卓越。均可以商用。
  • 从各个基准测试的成绩来看,Kimi-k2 超过了 DeepSeek-V3-0324Qwen3-235B-A22B 等开源模型,成为了开源模型新 SOTA;同时在多项性能指标上也能赶超 GPT-4.1Claude-4-Opus 等闭源模型,展现出领先的知识、数学推理与代码能力。
  • 根据网友一段时间的测试,K2 模型的代码能力是一个亮点,并且因为其价格很低,因此可能可以成为 Claude-4-Sonnet 的有力开源平替。

7月14日

智源发布最强具身大模型 RoboBrain-2.0-32B

  • 智源研究院发布了具身大脑 RoboBrain-2.0-32B,以及跨本体大小脑协同框架 RoboOS-2.0 单机版。
  • RoboBrain-2.0-32B 集成感知、推理和规划于一体,是一款面向真实环境的“通用具身大脑”,在多项权威具身智能基准上全面刷新记录。该模型此前的 7B 版本,具有紧凑高效的模型结构,轻量化设计完成适配边缘设备部署需求,适合于在低资源的环境下稳定运行,同时相比主流的开闭源模型仍然具有强劲的实力。

7月15日

秘塔发布国内首个免费公开深度研究产品

  • 刚刚,秘塔AI发布了国内第一家免费公开可用的”深度研究“产品。
  • 该产品可以直接对标海外的 Deep Research 能力,性能非常强大:在 BrowseComp 等基准测试集超越了上周刚刚开源且达到 SOTA 效果的 WebSailor 模型,准确率有了非常高的提升。

7月17日

全球最强开源定理证明模型 Goedel-Prover-V2 发布

  • 刚刚,来自普林斯顿大学、清华大学、英伟达、斯坦福大学等机构的研究者联手,开发了数学定理证明模型 Goedel-Prover-V2。上一代的 Goedel-Prover 已经被 COLM 2025 顶会录用,曾在一些基准上刷新 SOTA;这一次发布的模型共有 32B 和 8B 两个版本,可以用更少的算力,在多个基准测试集上获得 SOTA。
  • 在 IMO 级别的基准 MathOlympiadBench 上,Goedel-Prover-V2 解决了 73 个问题;相比之下,之前的 DeepSeek-Prover-671B 仅解决了 50 个问题。

谷歌推出替代 Transformer 的 MoR 架构

  • 谷歌刚刚推出了一种全新的底层架构 Mixture-of-RecursionsMoR)。相较于 Transformer,该架构的推理速度提高了两倍,而 KV 内存消耗却减半,这样的效果首次在单一框架中实现。
  • MoR 架构使用同一组参数处理不同任务时,会动态分配计算资源。就像给大语言模型开了一个双层 buff,模型性能和效率全都要。

亚马逊发布企业级 AI 智能体搭建工具包

  • 亚马逊在刚刚的纽约峰会上正式发布了一个企业级的 AI 智能体搭建工具包 Amazon Bedrock AgentCore,彻底考虑到了 AI 智能体在生产过程中的七大核心服务,照顾到了所有部署细节。
  • 七大核心服务包括:AgentCore Runtime 用于提供低延迟的无服务器环境,支持会话隔离;AgentCore Memory 用于管理会话和长期记忆,为模型提供上下文信息,帮助智能体从过去的交互中学习;AgentCore Observability 用于提供代码执行的逐步可视化,可以帮助开发者调试;Agent Identity 用于让 AI 智能体安全地访问亚马逊云科技服务和第三方工具,支持基于用户身份或预授权用户同意的操作;AgentCore Gateway 用于将现有的 API 和 Lamba 函数转换为可用于代理的工具;Agent Brower 提供托管的网页浏览器实例,扩展智能体的自动化工具流;AgentCore Code Interpreter 用于提供隔离环境以运行生成的代码。

7月18日

ChatGPT Agent 发布【重要】

  • 今天凌晨,OpenAI 发布了全新的智能体 ChatGPT Agent,实现了通用智能体能力的关键升级。
  • 和之前的基础大模型升级不同,通用智能体可以自动利用多种工具进行规划,帮助用户完成复杂的任务,包括自动浏览用户日历、生成可编辑的PPT和运行代码等。智能体可以连接用户的 Gmail、Github 网站获取信息并解决问题,使用 API 来访问各种应用。
  • 智能体加持下 AI 的能力获得了大幅度提升:基于 ChatGPT Agent 的模型在 HLE 基准上取得了 41.6% 的分数,是 o3o4-mini 模型的几乎两倍。
  • 目前,ChatGPT Agent 已经面向 Pro、Plus 和 Team 计划的订阅用户开放,想要使用的用户只需要在 ChatGPT 的工具下拉菜单中选择 Agent 模式即可。Pro 用户每月通常最多可以使用 400 次智能体,而其他付费用户最多可以使用 40 次。

7月22日

Qwen3 非思考模型超越 Kimi-K2 【重要】

  • Kimi-K2 发布不到两周,Qwen3 就迎来了最新升级:更新后的 Qwen3-235B-A22B-2507 的总参数量仅为 Kimi-K21T 参数量的四分之一,但是却在基准测试性能上超越了 Kimi-K2,尤其是在数学推理能力上相较于上一个版本的 Qwen3 有了极大的提升。
  • 新模型采用 MoE 架构,参数量为 235B,其中非嵌入参数为 234B,而推理时的激活参数为 22B
  • 另外,Qwen 官方宣布不再使用混合思维模式,而是分别训练 Instruct 和 Thinking 模型,所以,此次发布的新模型只能支持非思考模式。
  • 升级后的 Qwen3 目前已经可以在网页上使用,但是通义 APP 暂未更新。

7月23日

Qwen3-Coder 成为最强开源编程模型【重要】

  • 刚刚,阿里通义大模型团队开源了 Qwen3-Coder,刷新了非推理模型 AI 编程 SOTA。不仅在开源界超过了 DeepSeek-V3Kimi-K2,闭源界超过了 GPT-4.1,还赶上了编程业界标杆、闭源的 Claude-4-Sonnet
  • Qwen3-Coder 包含多个尺寸,其中最强版本的 Qwen3-Coder-480B-A35B-Instruct450B 的 MoE 模型,激活参数为 35B,原生支持 256K 上下文,还可以通过 YaRN 扩展到 1M 上下文。
  • 另外,通义团队基于 Gemini Code,进行了 Prompt 和工具调用协议适配,二次开发并开源了命令行工具 Qwen-Code

7月26日

首个具有原生记忆的大模型架构 Yan-2.0-Preview 推出

  • 在今年的世界人工智能大会上,国内AI企业 RockAI 提出了一种非 Transformer 的架构 Yan-2.0-Preview。该架构极大降低了模型进行推理时的计算复杂度,因此可以在算力非常有限的设备上离线运行,例如树莓派。
  • 与其他可以在设备端运行的“云端大模型的小参数版本”不同,这个模型拥有一定的原生记忆能力,可以在执行推理任务时把记忆融入自己的参数。因此,基于该架构构建的大模型不会像其他模型一样,每一次的聊天都是新的,而是随着时间的推移越来越了解使用它的用户,并基于用户的信息来回答问题。另外,与其他基于 Transformer 或非基于 Transformer 的模型相比,Yan-2.0-Preview 在生成、理解一集推理等多个关键指标上都有不错的优势。
  • 在本次世界人工智能大会上,RockAI 展出了一个只有 3B 的基于新架构多模态大模型的机械手。部署到端侧后无论是对话效果海上延迟几乎都可以媲美云端运行的比它大得多的模型,而且具有多模态能力。

阶跃星辰开源多模态 SOTA 模型 Step-3【重要】

  • 在世界人工智能大会上,阶跃星辰发布并开源了新一代旗舰模型 Step-3,标志着多模态大模型进入了一个新的里程碑。
  • Step-3 采用了原创的 MFA 架构,通过模型和系统联合创新,实现了行业领先的推理效率和极致的性价比。
  • Step-3 在多个评测数据集上取得了开源多模态推理模型领域的 SOTA;另外,其对所有芯片都很友好,它通过系统性的技术创新实现了极高的推理效率,其在国产芯片上的推理效率最高可以达到 DeepSeek-R1300%

Qwen3 推理模型达到 SOTA

  • Qwen3-Coder 发布后没多久,Qwen3 系列最强推理模型 Qwen3-235B-A22B-Thinking-2507 正式开源。该模型一登场就刷新各种 SOTA,在各项评测中一举拿下全球最强开源模型的称号,直接比肩顶尖闭源模型 Gemini-2.5-Proo4-mini
  • Qwen3 推理模型一举拿下了开源模型中基础模型、编程模型和推理模型全球最强。
  • 新的推理模型主要提升了三方面的能力:逻辑推理、数学、科学和编程任务上的性能;指令遵循、使用工具和生成文本的能力;支持 256K 上下文,适合于高度复杂的推理任务。

设计智能体顶流 Lovart 正式开放

  • 刚刚,设计顶流智能体 Lovart 宣布向所有人开放邀请码。该智能体层上线五天就引来十万人排队体验,时隔两个月之后终于正式上线。
  • 另外,在此次发布中,Lovart 全新重磅推出了 ChatCanvas 玩法。该玩法被视为具备视觉理解的 Figma+Notion+ChatGPT 的变体,可以让人和 AI 设计师一起在同一张画布上无限配合。

多模态开源 SOTA 大模型 Intern-S1 发布【重要】

  • 今天,上海人工智能实验室发布并开源了“书生”科学多模态大模型 Intern-S1,多模态能力达到全球开源第一,文本能力比肩国内外一流模型,科学能力全模态达到国际领先。该模型是融合科学专业能力的基础模型,综合性能为当前开源模型中最优。
  • 基于 Intern-S1 的科学发现平台 Intern-Discovery 也于近期上线,帮助研究者、研究工具和研究对象三者能力全面提升。
  • 目前,中国的开源模型通过算法优化(例如动态精度调节、MoE 架构)和开源协作生态,在性能上接近甚至超越国际上领先的闭源模型,同时大幅降低了算力需求。

7月28日

智谱开源超强模型 GLM-4.5【重要】

  • 刚刚,智谱低调发布并开源了最新的旗舰模型 GLM-4.5。这是一个全新的融合大模型,相较于其他模型卷参数和刷榜单,该模型直接不跟风,而是狙击 GPT-5:原生融合了智能体、推理和编程能力,走向更加通用和高效的AI。
  • 在对模型的通用能力进行综合衡量时,GLM-4.5 在十二个基准测试集上综合平均分获得了全球模型第三、国产模型第一、开源模型第一,仅次于 Grok-4o3,超过了 Claude-4-OpusDeepSeek-R1-0528Kimi-K2 等众多对手。
  • GLM-4.5 采用 MoE 架构,包含 GLM-4.5GLM-4.5-Air 两个产品。GLM-4.5 总参数量达到 355B,激活参数为 32BGLM-4.5-Air 总参数量为 106B,激活参数为 12B
  • 生成速度是 GLM-4.5 的一大亮点:其最快版本的生成速度达到了 100 token/s,远超其他模型。Kimi-K2 的生成速度大约为 25 token/sClaude-4 的生成速度大约为 34-37 token/sGLM-4.5GLM-4.5-Air 的生成速度达到了 30-50 token /sGLM-4.5XGLM-4.5-AirX 达到了 60-100 token/s
  • 除了生成速度之外,价格也是该模型的一大亮点:API 调用价格为 0.11美元 / 1M token,输出则为 0.28美元 / 1M token。该定价远低于主流模型定价。
  • 目前,GLM-4.5 已经在智谱清言和 Z.ai 上线,并且用户可以免费体验满血版。
  • 除了文本生成之外,GLM-4.5 还支持更高级的 AI PPT 生成。该模型生成的 PPT 的配色和风格并不像其他智能体一样单一模板背景,而且制作好的PPT也可以一键发布,分享给任何人。

7月29日

天气预报 AI 模型 风宇 发布

  • 国家卫星气象中心联合南昌大学和华为共同研发并发布了全球首个全链式空间天气人工智能预报系统 风宇
  • 该模型在国际上首次实现全链路的智能建模,首创空间天气上下游智能耦合技术,基于自主可控 AI 框架的算子领域优化技术。模型具有在太阳风、磁层和电离层各个区域优秀的24小时短临预测能力。

全球首个开源 MoE 架构视频生成模型 Wan-2.2 发布

  • 阿里发布全球首个开源的 MoE 架构视频生成模型 Wan-2.2,其最大的亮点在于具备了电影级的美学控制能力。
  • 该模型首次在视频扩散模型中引入了 MoE 架构,并且通过训练数据规模的跃升和数据中融入的特别筛选的美学数据集,让模型具备了电影级的美学控制能力。
  • 该模型遵循 Apache-2.0 开源协议。

7月30日

ChatGPT 推出学习模式

  • ChatGPT 在今天凌晨推出了学习模式。在该模式下,ChatGPT 不再是针对用户的查询给出答案,而是会帮助用户一步步解决自己的问题。
  • 在用户使用学习模式时,ChatGPT 会给出一些引导性问题。这个问题会根据用户的目标和技能水平调整答案,从而帮助他们加深理解。学习模式的目标是吸引学生学习并保持参与型,而不仅仅是 AI 完成一些工作。

Qwen3 推出高效率非思考模型

  • 今天凌晨,Qwen3-30B-A3B 模型更新为 Qwen3-30B-A3B-Instruct-2507。该版本的模型是一个非思考模式模型,其亮点在于仅激活 3B 参数,就展现出和业界顶尖闭源模型(例如谷歌的 Gemini-2.5-Flash 非思考模式和 GPT-4o)相媲美的实力。即使与 DeepSeek-V3-0324 等模型对比,该模型可以基本追平甚至超过。
  • 该模型的发布标志着模型效率和性能优化上的又一次重大突破。

7月31日

地球绘制大模型 AlphaEarth Foundations 发布

  • 谷歌 DeepMind 发布了 AlphaEarth Foundations 模型,实现了高精度地对地球进行绘制。它将为科学家提供近乎实时的地球预测。
  • 该模型主要解决了数据过载和信息不一致两大问题,也就是观测数据多但高质量标注数据少对绘制全球地图带来的困难。
  • 该模型生成的卫星嵌入数据集现在已经被联合国粮农组织、哈佛森林邓超过 50 个全球组织使用。
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐