智谱清言推全新情感语音模型GLM-4-Voice,开启AI语音交互新纪元

【免费下载链接】webrl-glm-4-9b 【免费下载链接】webrl-glm-4-9b 项目地址: https://ai.gitcode.com/zai-org/webrl-glm-4-9b

2024年10月25日,智谱AI在大模型技术领域再迎新突破——继8月推出音视频通话功能赋予AI"视觉与语言能力"后,今日正式发布端到端情感语音模型GLM-4-Voice。这款全新模型不仅实现情感理解与表达的双向交互,更通过端到端架构突破传统语音交互技术瓶颈,标志着人工智能向自然人机对话迈进一步。

作为智谱大模型家族的新成员,GLM-4-Voice构建了"能听会说、善解人意"的全链路语音交互能力。该模型具备情感识别与表达双重功能,可精准捕捉用户语音中的情绪波动,并以匹配的语调、语速生成回应;支持实时语速调节,用户可根据交流需求随时指令"加快语速"或"放慢讲解";创新性实现对话中断机制,允许用户随时插入指令调整交互节奏。在语言覆盖方面,模型已支持中英文双语及多地方言交互,尤其在粤语、川渝方言、北京话等地域语言处理上展现出专业级表现。值得关注的是,该模型即将与视频通话功能深度整合,打造"视听一体"的沉浸式AI交互体验。

秉持"发布即可用"的产品理念,GLM-4-Voice已同步上线「智谱清言」应用平台。用户现在通过清言APP即可体验到拟人化语音交互——无论是倾诉日常情绪获得共情回应,还是进行多语言交流练习,AI助手都能以自然流畅的语音交互模拟真实对话场景。据智谱技术团队透露,视频通话与语音模型的融合版本正在紧张测试中,未来用户将能实现"边看边聊"的多模态交互,使AI陪伴场景更具真实感与代入感。

此次发布的GLM-4-Voice更开创行业先河,成为智谱首个开源的端到端多模态语音模型。开发者可通过代码仓库(https://gitcode.com/zai-org/webrl-glm-4-9b)获取完整技术方案,探索语音交互创新应用。相较于传统语音交互采用的"语音识别(ASR)+语言模型(LLM)+语音合成(TTS)"三级级联架构,端到端模型通过音频Token直接建模语音信号,在单一模型中完成从语音理解到生成的全流程处理,从根本上解决了级联系统存在的信息损耗与误差累积问题。

技术架构上,GLM-4-Voice采用离散Token表示法实现音频信号的高效建模。系统首先通过有监督训练构建音频Tokenizer,在12.5Hz超低码率下(即每秒生成12.5个音频Token)完整保留语音语义与副语言信息(如情绪、语速特征);语音合成环节则创新性应用Flow Matching流式生成技术,仅需10个Token即可启动语音合成,将对话延迟控制在人类感知阈值以下。预训练阶段,研发团队通过任务解耦策略攻克语音模态下的认知能力瓶颈:将Speech2Speech任务分解为"语音转文本理解"与"文本转语音生成"双目标训练,分别利用文本预训练数据与无监督音频数据构建训练样本。在GLM-4-9B基座模型基础上,通过数百万小时音频数据与数千亿Token的文本-音频交错训练,使模型同时具备强大的语音理解能力与自然语音生成能力。

为实现低延迟交互体验,GLM-4-Voice设计了创新的流式思考架构。当接收用户语音输入后,模型可并行输出文本与语音两种模态结果,其中语音生成以文本语义为锚点确保内容准确性,同时根据用户实时指令动态调整语音特征。实测显示,系统在输出20个Token后即可启动语音合成,端到端延迟控制在行业领先水平。

在大模型工具应用领域,智谱同步发布了AutoGLM智能体系统的重大升级——新增phone use能力,使AI首次具备模拟人类操作手机的全流程能力。这项突破源于智谱对大模型工具属性的深度探索:通过构建与用户生活场景紧密结合的手机操作能力,打破传统API调用的功能局限,实现与人类操作逻辑一致的设备控制体验。用户仅需通过文字或语音下达简单指令,AutoGLM即可完成如"预订下周的高铁票""整理手机相册"等复杂操作,且无需手动配置任务流程。

AutoGLM的核心技术突破在于自研的WebRL强化学习框架,该框架通过"基础智能体解耦合中间界面"实现任务规划与动作执行的协同优化,有效解决了大模型智能体普遍存在的能力拮抗、训练数据稀缺、反馈信号不足等行业难题。借助自进化学习机制,系统能在实际应用中持续迭代策略模型,实现操作能力的自主提升。评测数据显示,AutoGLM在手机操作(Phone Use)与网页浏览(Web Browser Use)场景下性能显著跃升:在AndroidLab标准测试集上,其综合表现超越GPT-4o与Claude-3.5-Sonnet;WebArena-Lite网页任务评测中,相对GPT-4o实现约200%的成功率提升,大幅缩小了人机在图形界面操作上的能力差距。

目前,AutoGLM Web版本已通过「智谱清言」插件商店开放使用,用户可体验智能网页检索、内容摘要生成等自动化功能;手机端应用已启动安卓系统内测,用户通过官方渠道申请即可参与测试。智谱技术负责人表示,AutoGLM代表了大模型工具能力的进化方向——未来AI将像人类一样具备环境感知、任务规划、工具使用的完整能力链,最终实现通用智能体的技术愿景。

从单一文本交互到多模态感知(文本、视觉、语音),再到工具使用能力的突破,GLM大模型的进化之路依托于不断升级的基座模型能力。最新发布的GLM-4-Plus基座模型在语言理解能力上已达到行业领先水平,与GPT-4o及Llama3.1(405B参数版)处于同一梯队。据智谱AI首席科学家介绍,团队正围绕"类脑能力维度"构建AGI技术升级路线图:当前大模型已在L1语言能力(完成度80%-90%)、L2逻辑思维、L3工具使用等维度取得显著进展,未来将重点突破情感认知、长期记忆、多模态协同等高级智能能力。

技术路线图显示,原生多模态模型研发已进入关键阶段。这种创新架构将实现文本、图像、音频等模态的混合训练,使模型从根本上理解不同模态间的语义关联,而非简单的模态转换。在确保认知能力比肩人类的同时,智谱团队正投入大量资源研究价值观对齐技术,通过多维度安全机制保障AI系统的可控可靠。AutoGLM作为L3工具能力的典型应用,被视为构建"GLM-OS"通用计算系统的核心基石——这种以大模型为中心的新型计算架构,将彻底重构人机交互范式,使AI从被动响应工具进化为主动规划执行者。

随着GLM-4-Voice语音模型的落地与AutoGLM工具能力的突破,智谱正在构建一个覆盖"感知-认知-行动"全链路的AI技术体系。这种体系化创新不仅推动着人机交互向自然化、智能化方向发展,更为通用人工智能的实现铺设了坚实的技术路径。在可预见的未来,兼具情感温度与执行能力的AI系统,将在教育、医疗、办公等领域创造出前所未有的应用价值,真正实现"让智能无处不在"的技术愿景。

【免费下载链接】webrl-glm-4-9b 【免费下载链接】webrl-glm-4-9b 项目地址: https://ai.gitcode.com/zai-org/webrl-glm-4-9b

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐