《StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models》解读

一、引言与背景

近年来,文本到语音(TTS)合成技术取得了显著进展,其在虚拟助手、有声读物和配音叙述等领域的应用越来越广泛。尽管一些研究在人类水平性能方面取得了重大进展,但实现鲁棒且易于使用的类人 TTS 合成仍然是一个 ongoing 的挑战,尤其是在语音的多样性和表现力、对 out-of-distribution(OOD)文本的鲁棒性以及高性能零样本 TTS 系统对大规模数据集的依赖等方面还有提升空间。

为了解决这些问题,StyleTTS 2 应运而生。它通过风格扩散和对抗训练利用大型语音语言模型(SLMs),在单说话人和多说话人数据集上均实现了人类水平的 TTS 合成,是首个在公开可用的单说话人和多说话人数据集上达到人类水平性能的模型,为 TTS 合成领域树立了新的标杆。

二、相关工作

(一)扩散模型在语音合成中的应用

扩散模型因其在语音合成中能够实现多样化的语音采样和细粒度的语音控制而受到关注。然而,与非迭代方法(如基于 GAN 的模型)相比,其效率受限,因为需要迭代地采样 mel 谱图、波形或其他潜在表示。StyleTTS 2 引入风格扩散,通过条件于输入文本的固定长度风格向量来显著提高模型速度,同时保持扩散模型在语音生成中的多样化优势。

(二)基于大型语音语言模型的 TTS

大型自监督语音语言模型(SLMs)在提升 TTS 质量和说话人适应方面表现出色。这些工作通常将文本输入转换为预训练 SLMs 得到的连续或量化表示,用于语音重建。与之不同,StyleTTS 2 通过对抗训练利用 SLMs 的知识,无需潜在空间映射,直接学习优化用于语音合成的潜在空间。

(三)人类水平的 TTS 研究

此前一些工作通过 BERT 预训练和端到端训练等技术推进了人类水平 TTS 的发展。StyleTTS 2 在此基础上更进一步,不仅达到了与人类录音难以区分的性能,还在多个数据集上超越了现有最先进模型。

三、研究方法

(一)StyleTTS 2 概述

StyleTTS 2 是对 StyleTTS 框架的改进,通过端到端训练、直接波形合成和对抗训练(借助大型 SLMs 以及创新的可微分时长建模)实现了更富有表现力且具有人类水平质量的 TTS 合成模型。

1. 端到端训练

StyleTTS 2 采用端到端训练过程,联合优化所有 TTS 系统组件。修改后的解码器 G 能够直接从风格向量、对齐的音素表示以及音高和能量曲线生成波形。研究者提出了两种类型的解码器:基于 HifiGAN 和 iSTFTNet 的解码器。同时,引入了蛇形激活函数,并在每个激活函数后添加 AdaIN 模块以建模语音的风格依赖性。

此外,研究者发现经过良好训练的声学模块(尤其是风格编码器)可以加速 TTS 预测模块的训练过程。因此,在联合优化所有组件之前,先对声学模块进行预训练。

2. 风格扩散

在 StyleTTS 2 中,语音 x 被建模为条件分布 p(x|t),通过潜在变量 s 来表示。s 遵循分布 p(s|t),研究者称之为广义语音风格,涵盖除音素内容 t 之外的语音特征。通过 EDM(高效扩散模型)采样 s,该模型遵循联合概率流和时变 Langevin 动力学。

3. SLM 对抗训练

SLM 对抗训练通过利用预训练的 WavLM 模型作为鉴别器,将 SLM 编码器的知识转移到生成任务中。为了避免鉴别器过于强大,研究者固定预训练的 WavLM 模型,并附加一个卷积神经网络作为鉴别头。

4. 可微分时长建模

时长预测器产生的音素时长 dpred 的上采样方法需要可微分,以实现端到端训练。研究者提出了一种新的非参数可微分上采样器,无需额外训练即可适应对齐长度的变化。

(二)模型训练

研究者在三个数据集上进行了实验:LJSpeech、VCTK 和 LibriTTS。单说话人模型在 LJSpeech 数据集上训练,多说话人模型在 VCTK 数据集上训练,零样本适应模型则在 LibriTTS 数据集上训练。所有数据集均重采样至 24 kHz,并使用 phonemizer 将文本转换为音素。

训练过程中,使用了 AdamW 优化器,并对波形进行了随机分段,最大长度为 3 秒。对于 SLM 对抗训练,确保生成样本和真实样本的时长在 3 到 6 秒之间。风格扩散步骤在训练期间随机采样 3 到 5 次,推理时设置为 5 次以保证质量。

四、实验与评估

(一)评估指标

实验中采用了两个指标:自然度的平均意见得分(MOS-N)和多说话人模型对参考语音相似度的平均意见得分(MOS-S)。评估由美国的母语英语使用者在 Amazon Mechanical Turk 上完成。

(二)实验结果

1. 模型性能

StyleTTS 2 在 LJSpeech 数据集上的表现超越了人类录音,CMOS 为 +0.28(p < 0.05),相较于 NaturalSpeech 达到了 +1.07(p ≪ 0.01)的 CMOS。在 VCTK 数据集上,StyleTTS 2 在自然度和与参考说话人的相似度方面均达到了人类水平(CMOS 分别为 −0.02 和 +0.30)。在 LibriTTS 数据集的零样本适应实验中,StyleTTS 2 在自然度方面超越了 Vall-E,CMOS 为 +0.67(p ≪ 0.01),尽管在相似度方面略逊一筹,但仅使用了 245 小时的训练数据,相较于 Vall-E 的 60k 小时,数据效率高出 250 倍。

2. 风格扩散效果

通过 t-SNE 可视化风格向量,StyleTTS 2 能够根据输入文本的情感生成具有不同情感风格的语音,无需在训练期间提供明确的情感标签。此外,该模型还能从 3 秒的参考音频中为未见过的说话人生成多样化的风格。

3. 消融研究

消融研究表明,风格扩散、可微分上采样器、SLM 对抗训练、韵律风格编码器以及 OOD 文本训练均对模型性能有显著贡献。例如,当使用随机编码的风格向量替代风格扩散采样的向量时,CMOS 为 −0.46,凸显了文本依赖风格扩散在实现人类水平 TTS 中的关键作用。

五、结论与局限性

StyleTTS 2 通过风格扩散和 SLM 对抗训练,在单说话人和多说话人数据集上均实现了人类水平的 TTS 合成。然而,该模型在处理包含数千个说话人、各种口音和说话风格的大规模数据集(如 LibriTTS)时还有提升空间。此外,在零样本适应任务中,说话人相似性也有待进一步提高。

研究者还指出,零样本说话人适应技术存在潜在的滥用风险,例如模仿他人声音可能导致信息误导或欺骗。为此,他们将要求模型使用者遵守行为准则,包括告知听众正在收听合成语音或获得使用合成样本的知情同意等。

六、核心技术总结

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐