字节：扩散自回归模型的语音生成

如何将扩散变换器与自回归语言模型有效结合，以实现高质量的语音生成，同时降低计算需求。论文提出了一种新的自回归模型DiTAR，利用扩散变换器的能力生成本地化的补丁，同时保持语言模型的核心自回归特性，从而在0-shot语音合成任务中实现了最先进的鲁棒性、说话人相似性和自然性。

大模型任我行

901人浏览 · 2025-02-14 08:00:00

大模型任我行 · 2025-02-14 08:00:00 发布

在这里插入图片描述

📖标题：DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation
🌐来源：arXiv, 2502.03930

🌟摘要

🔸最近的几项研究试图通过结合扩散和自回归模型来自回归地生成没有离散语音令牌的连续语音表示，但它们经常面临计算负荷过大或结果不佳的挑战。
🔸在这项工作中，我们提出了扩散变换器自回归建模（DiTAR），这是一种基于补丁的自回归框架，将语言模型与扩散变换器相结合。这种方法显著提高了连续令牌的自回归模型的效率，并降低了计算需求。DiTAR采用分而治之策略生成补丁，其中语言模型处理聚合的补丁嵌入，扩散变换器随后根据语言模型的输出生成下一个补丁。为了进行推理，我们建议将温度定义为反向扩散ODE期间引入噪声的时间点，以平衡多样性和确定性。
🔸我们还在广泛的扩展分析中表明，DiTAR具有出色的可扩展性。在零样本语音生成中，DiTAR在鲁棒性、说话者相似性和自然度方面实现了最先进的性能。

🛎️文章简介

🔸研究问题：如何将扩散变换器与自回归语言模型有效结合，以实现高质量的语音生成，同时降低计算需求。
🔸主要贡献：论文提出了一种新的自回归模型DiTAR，利用扩散变换器的能力生成本地化的补丁，同时保持语言模型的核心自回归特性，从而在0-shot语音合成任务中实现了最先进的鲁棒性、说话人相似性和自然性。

📝重点思路

🔸提出DiTAR框架，它结合了因果注意力自回归模型和双向注意力扩散变换器，通过将连续的语音令牌分割成多个补丁来处理长序列。
🔸使用聚合编码器将输入的补丁转换为低维特征，再通过自回归模型进行跨补丁预测，并利用LocDiT扩散解码器进行补丁内部的生成。
🔸引入新的温度定义和快速的基于温度的采样方法，以在扩散过程中平衡多样性和稳定性。
🔸采用变分自编码器（VAE）将波形转换为潜在分布，并在生成过程中使用无分类器指导（CFG）来增强条件遵循性。

🔎分析总结

🔸DiTAR在0-shot语音合成任务中表现出最先进的性能，尤其在自然性和说话人相似性方面优于其他系统。
🔸论文验证了使用温度控制的采样方法能够有效平衡生成结果的多样性和稳定性。
🔸DiTAR显著降低了计算需求，相比其他非自回归系统，其计算量减少约3至43倍，同时保持高质量的音频生成。
🔸实验表明，历史上下文的整合提升了生成效果，而适当的补丁大小对模型性能有重要影响。

💡个人观点

论文结合扩散变换器和自回归模型，在处理连续语音令牌时降低计算负担并提高生成质量。

🧩附录

在这里插入图片描述

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla