智谱清言推全新情感语音模型GLM-4-Voice，开启AI语音交互新纪元

2024年10月25日，智谱AI在大模型技术领域再迎新突破——继8月推出音视频通话功能赋予AI"视觉与语言能力"后，今日正式发布端到端情感语音模型GLM-4-Voice。这款全新模型不仅实现情感理解与表达的双向交互，更通过端到端架构突破传统语音交互技术瓶颈，标志着人工智能向自然人机对话迈进一步。作为智谱大模型家族的新成员，GLM-4-Voice构建了"能听会说、善解人意"的全链路语音交互能力。

颜德崇

654人浏览 · 2025-12-02 01:06:04

颜德崇 · 2025-12-02 01:06:04 发布

智谱清言推全新情感语音模型GLM-4-Voice，开启AI语音交互新纪元

【免费下载链接】webrl-glm-4-9b 项目地址: https://ai.gitcode.com/zai-org/webrl-glm-4-9b

2024年10月25日，智谱AI在大模型技术领域再迎新突破——继8月推出音视频通话功能赋予AI"视觉与语言能力"后，今日正式发布端到端情感语音模型GLM-4-Voice。这款全新模型不仅实现情感理解与表达的双向交互，更通过端到端架构突破传统语音交互技术瓶颈，标志着人工智能向自然人机对话迈进一步。

作为智谱大模型家族的新成员，GLM-4-Voice构建了"能听会说、善解人意"的全链路语音交互能力。该模型具备情感识别与表达双重功能，可精准捕捉用户语音中的情绪波动，并以匹配的语调、语速生成回应；支持实时语速调节，用户可根据交流需求随时指令"加快语速"或"放慢讲解"；创新性实现对话中断机制，允许用户随时插入指令调整交互节奏。在语言覆盖方面，模型已支持中英文双语及多地方言交互，尤其在粤语、川渝方言、北京话等地域语言处理上展现出专业级表现。值得关注的是，该模型即将与视频通话功能深度整合，打造"视听一体"的沉浸式AI交互体验。

秉持"发布即可用"的产品理念，GLM-4-Voice已同步上线「智谱清言」应用平台。用户现在通过清言APP即可体验到拟人化语音交互——无论是倾诉日常情绪获得共情回应，还是进行多语言交流练习，AI助手都能以自然流畅的语音交互模拟真实对话场景。据智谱技术团队透露，视频通话与语音模型的融合版本正在紧张测试中，未来用户将能实现"边看边聊"的多模态交互，使AI陪伴场景更具真实感与代入感。

此次发布的GLM-4-Voice更开创行业先河，成为智谱首个开源的端到端多模态语音模型。开发者可通过代码仓库（https://gitcode.com/zai-org/webrl-glm-4-9b）获取完整技术方案，探索语音交互创新应用。相较于传统语音交互采用的"语音识别(ASR)+语言模型(LLM)+语音合成(TTS)"三级级联架构，端到端模型通过音频Token直接建模语音信号，在单一模型中完成从语音理解到生成的全流程处理，从根本上解决了级联系统存在的信息损耗与误差累积问题。

技术架构上，GLM-4-Voice采用离散Token表示法实现音频信号的高效建模。系统首先通过有监督训练构建音频Tokenizer，在12.5Hz超低码率下（即每秒生成12.5个音频Token）完整保留语音语义与副语言信息（如情绪、语速特征）；语音合成环节则创新性应用Flow Matching流式生成技术，仅需10个Token即可启动语音合成，将对话延迟控制在人类感知阈值以下。预训练阶段，研发团队通过任务解耦策略攻克语音模态下的认知能力瓶颈：将Speech2Speech任务分解为"语音转文本理解"与"文本转语音生成"双目标训练，分别利用文本预训练数据与无监督音频数据构建训练样本。在GLM-4-9B基座模型基础上，通过数百万小时音频数据与数千亿Token的文本-音频交错训练，使模型同时具备强大的语音理解能力与自然语音生成能力。

为实现低延迟交互体验，GLM-4-Voice设计了创新的流式思考架构。当接收用户语音输入后，模型可并行输出文本与语音两种模态结果，其中语音生成以文本语义为锚点确保内容准确性，同时根据用户实时指令动态调整语音特征。实测显示，系统在输出20个Token后即可启动语音合成，端到端延迟控制在行业领先水平。

在大模型工具应用领域，智谱同步发布了AutoGLM智能体系统的重大升级——新增phone use能力，使AI首次具备模拟人类操作手机的全流程能力。这项突破源于智谱对大模型工具属性的深度探索：通过构建与用户生活场景紧密结合的手机操作能力，打破传统API调用的功能局限，实现与人类操作逻辑一致的设备控制体验。用户仅需通过文字或语音下达简单指令，AutoGLM即可完成如"预订下周的高铁票""整理手机相册"等复杂操作，且无需手动配置任务流程。

AutoGLM的核心技术突破在于自研的WebRL强化学习框架，该框架通过"基础智能体解耦合中间界面"实现任务规划与动作执行的协同优化，有效解决了大模型智能体普遍存在的能力拮抗、训练数据稀缺、反馈信号不足等行业难题。借助自进化学习机制，系统能在实际应用中持续迭代策略模型，实现操作能力的自主提升。评测数据显示，AutoGLM在手机操作（Phone Use）与网页浏览（Web Browser Use）场景下性能显著跃升：在AndroidLab标准测试集上，其综合表现超越GPT-4o与Claude-3.5-Sonnet；WebArena-Lite网页任务评测中，相对GPT-4o实现约200%的成功率提升，大幅缩小了人机在图形界面操作上的能力差距。

目前，AutoGLM Web版本已通过「智谱清言」插件商店开放使用，用户可体验智能网页检索、内容摘要生成等自动化功能；手机端应用已启动安卓系统内测，用户通过官方渠道申请即可参与测试。智谱技术负责人表示，AutoGLM代表了大模型工具能力的进化方向——未来AI将像人类一样具备环境感知、任务规划、工具使用的完整能力链，最终实现通用智能体的技术愿景。

从单一文本交互到多模态感知（文本、视觉、语音），再到工具使用能力的突破，GLM大模型的进化之路依托于不断升级的基座模型能力。最新发布的GLM-4-Plus基座模型在语言理解能力上已达到行业领先水平，与GPT-4o及Llama3.1（405B参数版）处于同一梯队。据智谱AI首席科学家介绍，团队正围绕"类脑能力维度"构建AGI技术升级路线图：当前大模型已在L1语言能力（完成度80%-90%）、L2逻辑思维、L3工具使用等维度取得显著进展，未来将重点突破情感认知、长期记忆、多模态协同等高级智能能力。

技术路线图显示，原生多模态模型研发已进入关键阶段。这种创新架构将实现文本、图像、音频等模态的混合训练，使模型从根本上理解不同模态间的语义关联，而非简单的模态转换。在确保认知能力比肩人类的同时，智谱团队正投入大量资源研究价值观对齐技术，通过多维度安全机制保障AI系统的可控可靠。AutoGLM作为L3工具能力的典型应用，被视为构建"GLM-OS"通用计算系统的核心基石——这种以大模型为中心的新型计算架构，将彻底重构人机交互范式，使AI从被动响应工具进化为主动规划执行者。

随着GLM-4-Voice语音模型的落地与AutoGLM工具能力的突破，智谱正在构建一个覆盖"感知-认知-行动"全链路的AI技术体系。这种体系化创新不仅推动着人机交互向自然化、智能化方向发展，更为通用人工智能的实现铺设了坚实的技术路径。在可预见的未来，兼具情感温度与执行能力的AI系统，将在教育、医疗、办公等领域创造出前所未有的应用价值，真正实现"让智能无处不在"的技术愿景。

【免费下载链接】webrl-glm-4-9b 项目地址: https://ai.gitcode.com/zai-org/webrl-glm-4-9b

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla