7月28日晚,智谱悄无声息的开源了新一代旗舰模型 GLM-4.5,发布仅10小时,便引发全球媒体高度聚焦。

CNBC、路透社、Bloomberg等海外重量级媒体第一时间跟进报道。CNBC在报道中指出:“中国企业正在研发的人工智能模型不仅智能化水平提升,使用成本也持续降低,这与深度求索(DeepSeek)当年震动市场的突破核心优势相呼应。” 

目前,GLM-4.5模型已经登顶国际开源社区Hugging-Face榜单全球第一。

智谱此次发布GLM-4.5 系列(355B 以及 106B) 两个参数版本,源码和权重全部开源,采用极为宽松的 MIT License 协议。

GLM家族并非首次引发关注,之前的GLM-130B、ChatGLM3系列都因为是首个突破和首个开源,曾在开源圈掀起过波澜。这次模型亮点在于:

  • 首款原生融合模型: 这是其最大亮点之一。GLM-4.5首次在单个模型中实现了将推理、编码和智能体能力原生融合。 正如技术博客所阐释,大语言模型的终极目标是在广泛领域达到人类认知水平,但现有模型往往各有所长(编程、数学、推理),却难以成为真正的“全优生”。GLM-4.5 正是朝着统一各种能力这一目标迈进,力证大模型的下一个范式,必然是深度整合多维度能力于一体。

  • 更高的参数效率: GLM-4.5的参数量仅为一些主流模型的一半甚至三分之一,但在多项标准基准测试中表现更为出色。 特别是在衡量模型代码能力的权威榜单 SWE-bench Verified 上,GLM-4.5 系列位于性能/参数比的帕累托前沿——这意味着在同等参数规模下,它实现了当前已知的最佳性能。

下面咱们就详细看下GLM-4.5模型在性能、代码能力、推理表现这些硬实力上的实测表现~

这次发布的两个版本的GLM-4.5模型:

  • GLM-4.5:总参数355B,激活参数32B

  • GLM-4.5-Air:总参数106B,激活参数12B

它们都采用了混合专家结构(MoE,这个架构说白了就是“每次推理只激活部分参数”,在保证多样能力的同时大大降低了计算消耗。

模型支持两种核心模式切换:

  • Non-thinking 模式:轻量任务用这个,效率高、响应快、节省开销。

  • Thinking 模式:推理、链式思考、代码补全、Agent执行链条,用这个火力全开。

52个Agent 轨迹:

https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

实测体验:模型原生融合ARC(Agentic/Reasoning/Coding)能力,分分钟手搓Agent

说实话,小编原本对这个模型的预期,还停留在“跑跑测试题”这种层面。

但当我真正上手试了之后,我必须承认,它确实不止是“跑得好”。

GLM-4.5其原生架构设计使其成为真正意义上的“Agent基座模型”:

  • 推理能力(Reasoning):覆盖数学、符号逻辑、多轮对话逻辑链条等多个评测维度;

  • 代码能力(Coding):广泛适用于数据处理、日志分析、工具开发、前端交互、算法原型等复杂场景;

  • Agentic能力:具备任务自主拆解 + 工具调用 + 多轮完成任务的原生能力,无需外挂流程控制器。

这意味着,GLM-4.5并非“能Agent”的模型,而是“为Agent而生”的模型。

这里官方也放出了一些关于Agentic任务的评测技术细节报告

GLM-4.5 是对 Agentic 任务专门优化的基础模型,支持 128k 的上下文长度和原生函数调用能力。在 𝜏-bench 和 BFCL-v3(伯克利函数调用排行榜 v3)上对两款模型的 agentic 能力进行评估,GLM-4.5 的性能与 Claude-4-Sonnet 相当。

网页浏览是一种需要复杂推理和多轮工具使用的流行 Agentic 应用。技术团队在 BrowseComp 基准上评估了 GLM-4.5,在访问网页浏览工具的情况下,GLM-4.5 能够正确回答 26.4% 的问题,优于 Claude-4-Opus(18.8%),接近 o4-mini-high(28.0%)。

注:BrowseComp 是一个具有挑战性的网页浏览基准,包含需要简短回答的复杂问题。

下图显示了 GLM-4.5 在 BrowseComp 上的测试时扩展精度。

模型原生 Agent 场景跑通,从生成文本到生成产品

小编尝试了以下几种使用方式实测了多个「模型原生可落地Agent场景」,覆盖从文本工具、搜索型应用,到交互式网页与多人游戏,验证GLM-4.5的真实可部署性与连贯性,一口气构建了5个专业的应用,已经沉寂多年的开发能力突然以另一种形式觉醒,我又觉得我行了!

场景类别

示例任务

Agent行为链条

说明

文本工具类

智能PPT助手

需求理解 → 搜图 → 插图 → 生成结构化Markdown代码

可一键导出PPT,可调用浏览器插件或图像API

聊天+搜索引擎

类SearchGPT

用户问答 → 检索策略生成 → 多跳搜索 → 回答

支持信息分段获取与网页摘要

网页交互生成

“地球可视化页面”

指令解析 → HTML + CSS + JS生成 → 模型自检并修复

可实现GLM原生生成交互网页并部署预览

游戏类

多人协作小游戏

设定规则 → 多Agent分角色互动 → 状态管理 + UI生成

生成一个可运行的小游戏,模型完成规则设计与代码

多Agent任务流

企业流程工具

PM+Dev+Test虚拟角色协作 → 产出PRD+代码+测试

体现模型在组织内任务流中的自动化协作潜力

基于three.js构建的3D地球可视化模拟生成器

AI驱动的企业流程自动化工具(在线体验:https://k0nag61vkf50-deploy.space.z.ai/)

,时长02:05

多Agent协同的像素风格贪吃蛇游戏(在线体验:https://r0qat65a8yz1-deploy.space.z.ai/)

帮我生成一个游戏应用贪吃蛇,风格是像素风格,玩家可以驱动游戏内的小蛇,同时游戏内可随机出现不同其它的玩家,以及实物。并且右上角有当前对局的得分榜单。使用Agent帮我模拟其它的玩家。

GLM-4.5模型原生生成PPT

经常做PPT的小伙伴可能知道,做一套好看实用的PPT有多么麻烦,搜索信息、贴内容、正确配图,确保信息准确、审美在线、字体配色,最终代码生成PPT...

使用高大上的配色和奢侈品风格,生成一个关于爱马仕品牌介绍的PPT

实测GLM-4.5生成PPT,总耗时4分26秒,嗯,很快,而且比我做的好看多了...

这些能力已不止于“文本生成”,而是完成了从自然语言 → 工具控制 → 应用部署的全流程闭环。突然想起昨天刚刚开源的Coze,此刻会不会也开始沉思,Agent工作流是否只是大模型过渡期的产物,可能尽头依然ALL IN CHAT!!

下方是官方的一些demo参考,小伙伴可以直接打开体验:

一个真的能搜的搜索引擎

提示词:做一个Google搜索网站。

Z.ai版本“谷歌搜索”体验地址:https://n0x9f6733jm1-deploy.space.z.ai

一个真的能点赞的文字版抖音

提示词:做一个文字版抖音 , 允许上下切换, 需要支持发帖、 点赞、 评论的功能。

Z.ai版本“文字抖音”体验地址:https://t0mau6dg2nv0-deploy.space.z.ai

GLM-4.5不仅擅长处理复杂代码,同时也具有优秀的数据精准处理、交互动画设计能力。以下是GLM-4.5制作的一个3D 交互式地球网页,用户可以点击地点查看详情,并伴有平滑的缩放动画。

提示词:Build a webpage using Three.js and JavaScript that creates a 3D world displaying places I've visited, based on an array. Clicking markers on the 3D globe will animate a zoom effect and open detailed trip information with photos.

推理之上,是智能体:GLM-4.5的Agent原生性值得重视

现在市面上的大部分LLM,其实还是以“增强问答系统”为核心思路,即便加了插件、记忆系统、函数调用,也还是“在模型外面堆功能”。

这包括但不限于:

  • 模型对话中长期记忆、目标一致性保持

  • 模型对于任务目标、动机、过程的自我规划能力

  • 模型原生支持多轮链式思考与动作执行能力

但GLM-4.5开始做的,是在模型训练过程中就让模型具备智能体行为的能力。GLM-4.5 和 GLM-4.5-Air 使用了相似的训练流程:首先在 15 万亿令牌的通用数据上进行了预训练。然后在代码、推理、智能体等领域的数据上进行了针对性训练,最后通过强化学习进一步增强了模型的推理、代码与智能体能力。

GLM-4.5可以理解是具备实战能力的“多步任务执行者”,在未来 AI 工作助手、多任务智能客服、财务分析等场景中具备天然优势。

这也是为什么它能在TAU-BenchBrowseComp这种原本只适合专用Agent系统的任务中跑出好成绩——它是“原生具备智能体能力”的。

原生Agent觉醒时刻,一键上线不用复杂工作流

当看到GLM-4.5自动拆解这个需求时,不需要Manus,不需要Flowith,更不需要抢各种邀请码!小编知道智能体赛道要变天了:

为了测试模拟真实开发工作流小编特意选了一个针对以往多Agent智能体协同开发才能实现的多任务的复杂开发需求,让它开发一个自动分析上市公司财报并支持财报分析、下载报告、甚至增加用户自然语言对话返回财报分析结果的复杂多功能的网站。

以下是一次完整的one-shot prompt

帮我开发一个自动分析上市公司财报的网站,以下是具体的流程:1、用户输入一个上市公司名称或者股票代码(支持中国的A股或者美股公司),2、可以选择什么时间段的财报,或者默认是最新的财报。3、根据用户的输入自动抓取这个公司的财报。4、调用大模型能力分析财报,5、生成财报分析报告,财务报告可在线浏览,也支持自动成图文并茂的ppt报告,可供用户下载。提供下载地址  6、用户可进行对话,大模型根据用户输入自动寻找财报内的内容,并输出对应的图表。

然后GLM-4.5开始了它的思考和动作,创建了一个基本的Next.js项目结构,并使用TodoWrite来规划整个项目的开发步骤:

  1. 创建项目基础结构和路由

  2. 设计并实现主页面UI(搜索框、时间选择等)

  3. 实现财报数据抓取API(支持A股和美股)

  4. 实现财报分析API(调用大模型)

  5. 创建财报分析报告展示页面

  6. 实现PPT报告生成功能

  7. 实现对话功能和图表生成

  8. 优化UI/UX和响应式设计

后续就是根据每一个细分的目标进行思考、拆分、执行。如果后边有对前边共用的文件有修改,它会自动找到对应的代码文件以及对应的位置更新。

最后完成整个代码构建后,它还会回顾并检查整体的代码质量,检查开发日志,并且做一些用户体验优化,代码开发这么细心负责,这让人类开发者情何以堪...

一次运行成功!输入阿里巴巴,直接把财报分析内容展示了出来!

最终整个项目完成之后,GLM-4.5会在服务器端命令行启动项目,整个窗口会分成左右两大窗口,左侧是与大模型交互以及动态输出日志交互信息,右侧就是实际运行起来的网站预览。如果对生成的功能或者UI不满意,或者运行过程有出现错误问题,可以随时在左侧交互框中告诉它,非常方便和易用!

它还会贴心的把整个项目的功能点、技术架构、使用指南都整理成文字信息告诉你,后续小编又让它增加了原始报告下载、投资建议功能,基本一次就可以完成功能更新。

以下是从输入到完成整个项目构建的视频,全程自动化构建,最终总耗时约5分17秒:

后边在点击深度分析中的下载报告按钮会报错,小编直接左侧交互框告诉他错误信息:error proxying request: net/http: timeout awaiting response headers ,请修复。等待1分钟左右,功能顺利修复完成。

对于构建完成的项目,GLM-4.5支持在线部署和下载源码的功能。

现在,人人都可以是一个全栈开发者!就像左下角那个“全栈开发”按钮在告诉你的事情:不用再管什么瀑布流开发,不用再有产品经理、前端开发、后端开发、数据DBA...产品经理与开发也不用再天天吵架了,你只需要关注需求本身,有什么想法直接告诉GLM-4.5,一键上线不用复杂工作流,你只需要喝着咖啡等待!

随后,小编又顺手做了一个AI营销的网站,几分钟之后,我感觉明天可以汇报老板,公司可以再开设一条AI营销的业务线了...升职加薪指日可待!!

你现在就可以去 Z.AI 做一个专属的AI营销网站:

帮我开发一个AI营销的网站,以下是具体的流程和功能描述:1、文案写作功能,根据指定的文案风格或者预制的一些文案风格进行生成文案。2、文案风格改写功能,输入给定的文案,选择不同风格进行改写。3、风格图片生成:根据用户输入的自动生成不同风格的图片。4、文案错字和修改建议功能。5、根据给定的文案,自动生成视频脚本

你可以理解为,它不是“加了Agent功能的大模型”,而是“为Agent而设计的大模型”。

模型免费,API超便宜,生成速度超级快

  • API调用价格:

    • 输入:0.8 元 / 百万Tokens

    • 输出:2 元 / 百万Tokens

  • 响应速度:

    • 高速版本实测超过 100 Tokens / 秒,支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。

    • Thinking 模式稍慢但更精准,适合高复杂任务

现在智谱仅需 50 元即可包月爽用 GLM-4.5,调用量上不封顶!这样的价格,性价比直接拉满!!小伙伴千万别错过这难得的薅羊毛机会~

从性能、参数、结构、生态,到开源方式、使用门槛、场景适配,GLM-4.5几乎把目前一个通用大模型应该具备的一切全拉满了。

更难得的是,它不是闭门造车,而是明确要“向开发者开放、向产业落地”的。

它是在思考、推理、规划、执行能力上,开始向下一代 AI 操作系统靠拢。

国产大模型的路,不能只是对齐,更要超越。

GLM-4.5,给了我们一个全新的起点。

下一篇文章,我们来聊聊:这个模型背后到底是怎么训练出来的?又或者——智谱到底在下哪盘大棋?

我们,下次见。

附录:你现在就可以体验 GLM-4.5

GitHub / Hugging Face / ModelScope / API平台 全面同步

  • 🚀 Hugging Face(模型仓库):https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

  • 🧠 ModelScope(模型仓库):https://modelscope.cn/collections/GLM-45-b8693e2a08984f

  • Github 仓库:https://github.com/zai-org/GLM-4.5

  • 🔧 BigModel.cn (API接入,一键兼容Claude Code 框架):https://docs.bigmodel.cn/cn/guide/develop/claude

  • 💬 chatglm.cn (在线使用满血版):https://chatglm.cn

  • 🆓 Z.ai (在线使用满血版):https://chat.z.ai/

  • Claude code集成:https://docs.z.ai/scenario-example/develop-tools/claude

  • 支持 Claude Code、Roo Code 等代码智能体中接入使用

注:MIT License开源协议

  • 允许自由使用:任何人可将遵循 MIT 协议的软件用于商业、非商业等任何场景,无需支付费用。

  • 修改与分发自由:允许修改软件源代码,也可将修改后的版本以开源或闭源形式分发。

  • 低约束:只需在软件副本或相关文档中保留原作者的版权声明和许可声明,无需公开修改后的源代码。

END

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐