字节:扩散自回归模型的语音生成
如何将扩散变换器与自回归语言模型有效结合,以实现高质量的语音生成,同时降低计算需求。论文提出了一种新的自回归模型DiTAR,利用扩散变换器的能力生成本地化的补丁,同时保持语言模型的核心自回归特性,从而在0-shot语音合成任务中实现了最先进的鲁棒性、说话人相似性和自然性。

📖标题:DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation
🌐来源:arXiv, 2502.03930
🌟摘要
🔸最近的几项研究试图通过结合扩散和自回归模型来自回归地生成没有离散语音令牌的连续语音表示,但它们经常面临计算负荷过大或结果不佳的挑战。
🔸在这项工作中,我们提出了扩散变换器自回归建模(DiTAR),这是一种基于补丁的自回归框架,将语言模型与扩散变换器相结合。这种方法显著提高了连续令牌的自回归模型的效率,并降低了计算需求。DiTAR采用分而治之策略生成补丁,其中语言模型处理聚合的补丁嵌入,扩散变换器随后根据语言模型的输出生成下一个补丁。为了进行推理,我们建议将温度定义为反向扩散ODE期间引入噪声的时间点,以平衡多样性和确定性。
🔸我们还在广泛的扩展分析中表明,DiTAR具有出色的可扩展性。在零样本语音生成中,DiTAR在鲁棒性、说话者相似性和自然度方面实现了最先进的性能。
🛎️文章简介
🔸研究问题:如何将扩散变换器与自回归语言模型有效结合,以实现高质量的语音生成,同时降低计算需求。
🔸主要贡献:论文提出了一种新的自回归模型DiTAR,利用扩散变换器的能力生成本地化的补丁,同时保持语言模型的核心自回归特性,从而在0-shot语音合成任务中实现了最先进的鲁棒性、说话人相似性和自然性。
📝重点思路
🔸提出DiTAR框架,它结合了因果注意力自回归模型和双向注意力扩散变换器,通过将连续的语音令牌分割成多个补丁来处理长序列。
🔸使用聚合编码器将输入的补丁转换为低维特征,再通过自回归模型进行跨补丁预测,并利用LocDiT扩散解码器进行补丁内部的生成。
🔸引入新的温度定义和快速的基于温度的采样方法,以在扩散过程中平衡多样性和稳定性。
🔸采用变分自编码器(VAE)将波形转换为潜在分布,并在生成过程中使用无分类器指导(CFG)来增强条件遵循性。
🔎分析总结
🔸DiTAR在0-shot语音合成任务中表现出最先进的性能,尤其在自然性和说话人相似性方面优于其他系统。
🔸论文验证了使用温度控制的采样方法能够有效平衡生成结果的多样性和稳定性。
🔸DiTAR显著降低了计算需求,相比其他非自回归系统,其计算量减少约3至43倍,同时保持高质量的音频生成。
🔸实验表明,历史上下文的整合提升了生成效果,而适当的补丁大小对模型性能有重要影响。
💡个人观点
论文结合扩散变换器和自回归模型,在处理连续语音令牌时降低计算负担并提高生成质量。
🧩附录


更多推荐
所有评论(0)