Step-Audio-EditX技术报告
摘要
step AI推出了 Step-Audio-EditX,这是首个开源的基于大型语言模型的音频模型,擅长富有表现力的迭代音频编辑——涵盖情感、说话风格和副语言——以及强大的零样本文本转语音(TTS)功能。step AI的核心创新在于仅使用 large-margin 合成数据,从而避免了基于嵌入的先验知识或辅助模块的需求。这种 large-margin 学习方法实现了对不同声音的迭代控制和高表现力,标志着从传统的表示层面解耦向根本性的转变。评估结果表明,Step-Audio-EditX 在情感编辑和其他细粒度控制任务方面超越了 MiniMax-2.6-hd 和 Doubao-Seed-TTS-2.0。step AI的代码和模型可在 https://github.com/stepfun-ai/Step-Audio-EditX 获取。

一、背景
近年来,语音合成(TTS)技术取得了显著进步。其中一项引人注目的发展是零样本语音合成模型,它能够通过模仿参考语音提示的音色、韵律和风格生成高质量、自然流畅的语音。通常,当前的零样本语音合成系统主要分为三类:一类是利用大型语言模型(LLMs)来建模离散或连续的声学Token[1, 2, 3, 4, 5];一类是采用扩散或流匹配模型来学习直接的文本到语音映射[6, 7, 8, 9, 10, 11];还有一类是混合的粗到细系统,其中大型语言模型首先将文本Token转换为粗略的语音Token,然后通过扩散或流匹配模型进一步细化以呈现精细的语音细节[12, 13, 14, 15, 16, 17, 18, 19]。
尽管零样本语音合成取得了相当大的进展,但合成语音中的情感、风格、口音和音色等属性仍然直接源自参考音频。这种固有的局限性限制了对这些属性的独立控制。尽管在输入文本前添加风格或情感指令能在一定程度上实现可控性,并且对于领域内的说话者通常效果良好[9, 12, 13, 14],但这种方法在分离语音属性方面面临挑战。特别是,克隆的语音往往无法有效地遵循所提供的风格或情感指令。
许多关于语音分离的研究都依赖于诸如对抗训练[20, 21]、特征工程[22, 23]和创新网络架构[24]等方法来实现属性解耦。相比之下,step AI提出了一种简单而稳定的基于数据的方法。 具体而言,step AI设计了一条生成高质量数据对的流水线,这些数据对保留相同的语言内容,同时在一种或几种属性(如情感、风格、口音和副语言特征)上表现出明显的差异。通过在这样的数据对上训练模型,step AI实现了有效的属性分离,从而能够编辑输入语音的属性。此外,通过应用多次迭代的“编辑”步骤,目标属性的强度可以逐步增强或减弱。除了情感、风格和副语言编辑之外,step AI还证明了这种方法可以扩展到其他应用,包括语速调整、语音降噪和静音修剪。 在本报告中,step AI概述了step AI的贡献和发现:
- step AI推出了 Step-Audio-EditX,这是首个开源的基于 LLM 的音频模型,擅长富有表现力和迭代性的音频编辑,涵盖情感、说话风格和副语言,同时具备强大的零样本 TTS 能力。
- step AI的结果表明,仅通过使用large-margin数据进行后期训练,就可以控制情感和说话风格,无需额外的呈现建模或适配器模块。
- step AI发现,使用large-margin数据进行后期训练能够实现跨声音的迭代控制和高表现力,这标志着与传统的表示层面解缠方法的根本转变。
二、模型结构
2.1 整体框架
在step AI之前的工作中,step AI在 Step-Audio[25] 中引入了一个用于细腻情感表达和多样化说话风格数据生成的音频编辑合成模型。在本报告中,step AI保留了之前的模型以及相同的音频Tokenizer。关键的改进包括扩展了情感和说话风格的范围,增加了零样本 TTS 和副语言编辑功能,以及将模型参数从 1300 亿减少到 30 亿。借助大量合成数据,step AI的 30 亿模型在性能上优于之前的版本,并且更加稳定。
step AI的系统由三个主要组件构成:(1)一个双码本音频Tokenizer,将参考或输入音频转换为离散Token;(2)一个音频大语言模型,生成双码本Token序列;(3)一个音频解码器,使用流匹配方法将音频大语言模型预测的双码本Token序列转换回音频波形。这种集成架构使 Step-Audio-EditX 能够在一个统一的框架内执行零样本 TTS 和多样化编辑任务。因此,它可以直接利用为文本大语言模型开发的丰富的后训练技术生态系统。

2.2 音频Tokenizer
step AI通过保留之前 Step-Audio 模型中的双码本tokenization框架来研究large-margin数据对 LLM 后训练的影响,该框架采用语言(16.7 赫兹,1024 码本)和语义(25 赫兹,4096 码本) tokenizers以 2:3 的交错比例并行工作。基于一系列下游音频 tokenizers重建实验,step AI发现双码本 tokenizers保留了相当数量的情感、韵律和其他非语言信息,表明其解耦效果欠佳。这一缺陷使其特别适合用于验证step AI的 LLM 后训练策略以及所提出的基于large-margin数据的方法的有效性。
2.3 音频LLM
该音频LLM采用了与step AI之前的 Audio-Edit 模型相同的架构,唯一的区别在于其参数规模较小,为 30 亿。为了充分利用预训练LLMs强大的语言能力,30 亿参数的模型首先基于LLM进行初始化,然后在文本数据与音频双码本Token比例为 1:1 的混合数据集上进行训练。该音频LLM以聊天格式处理文本Token及其对应的双码本音频Token,随后仅生成双码本Token作为输出。
2.4 音频解码器
音频解码器由一个流匹配模块和一个 BigVGANv2[26] 语音合成器组成。流匹配模块在给出输出音频Token、参考音频和说话者嵌入作为条件的情况下生成梅尔频谱图,而 BigVGANv2 语音合成器则进一步将梅尔频谱图转换为波形。对于流匹配模块,step AI采用了扩散变压器(DiT)作为基础架构,并在 20 万小时的高质量语音数据上对模型进行训练。这一改进显著提高了其梅尔频谱图的重建能力,从而在发音准确性和音色相似性方面都取得了显著的提升。
三、数据
与之前关于 StepAudio 预训练数据集和方法的研究一致,本报告重点关注后训练数据集及相应的方法。
3.1 SFT 数据
step AI采用 SFT 使 Step-Audio-EditX 模型能够实现零样本 TTS 和多样化的音频编辑任务。SFT 数据可分为几个部分:零样本 TTS、情感编辑、说话风格编辑和副语言编辑。值得注意的是,large-margin数据集主要针对编辑任务,特别是在情感和说话风格方面。
3.1.1 零样本TTS
step AI采用了一个高质量、专业标注的内部数据集,主要包含中文和英文,用于零样本 TTS。此外,还使用了少量粤语和四川话的数据来激发方言能力。 为了确保合成语音具有多样且高度表达的风格和情感,并且具有强大的零样本性能,该数据集涵盖了个体说话者内部以及广泛说话人群体之间的语音变化,包含约 60,000 名独特的个体。
3.1.2 情感与说话风格编辑
情感和说话风格对于富有表现力的文本转语音系统来说是重大挑战,这主要是由于定义其类别特征以及收集高质量数据都存在固有的困难。step AI提出了一种简单且高效的基于large-margin合成数据的方法,该方法能够实现同一说话者在不同情感和说话风格之间的零样本语音克隆,同时确保对比样本对之间有足够的间隔。每种情感或说话风格仅需一个提示音频片段,从而无需进行昂贵的数据收集。此外,该方法巧妙地将复杂的情感和风格描述转换为基于对比对的数据构建格式。接下来,step AI将介绍所提出的方法:
语音演员录制: 语音演员录制了富有表现力的情感和说话风格。对于每个演员,每种情感和风格组合都录制了一个约 10 秒的音频片段。
零样本克隆: 针对每种情感和说话风格,通过从同一位说话者处选取相应的情感音频片段和中性音频片段作为提示音频,并使用描述目标属性的文本指令,借助 StepTTS 语音克隆接口对其进行处理,从而构建一个三元组(tertpeompttert_{peompt}tertpeompt、audioneutralaudio_{neutral}audioneutral、audioemotion,styleaudio_{emotion,style}audioemotion,style)。
Margin评分: 为了评估生成的三元组,step AI使用一个小规模的人工标注数据集开发了一个评分模型。该模型以 1 到 10 的评分标准对音频对进行评估,Margin得分越高,结果越理想。
Margin选择: 根据Margin得分阈值选择样本。针对不同的情感和风格调整该阈值,6 分作为通用的下限。值得注意的是,每个三元组中的音频片段都是使用相同的情感或风格文本提示生成的,这促使模型在微调训练过程中仅关注情感和风格本身的差异。
3.1.3 副语言编辑
副语言提示,如呼吸声、笑声和填充停顿(例如“呃”),对于提升合成语音的自然度和表现力至关重要。step AI通过采用“半合成”策略实现了副语言编辑能力,该策略利用了 NVSpeech 数据集[27],这是一个极具表现力的语音语料库,其丰富的副语言类型注释使得能够构建用于模型训练的比较四元组。四元组(无标签文本、无标签音频、原始文本、原始音频)的构建与三元组不同,它使用 NVSpeech 的原始音频和转录作为目标输出,而将 StepTTS 语音克隆生成的音频作为输入,该音频是在移除副语言标签后使用原始转录合成的。由于副语言编辑是在时域中执行的编辑任务,并且存在显著的内在时长差异,因此无需边际评分模型来进行数据选择。少量的四元组数据就足以有效地激发模型的副语言编辑能力。
3.2 强化学习数据
为了使step AI的模型与人类偏好保持一致,step AI采用两种不同的方法构建了两种不同类型的偏好数据集:一种基于人工标注,另一种采用 LLM-as-a-Judge 方法。
人工标注: step AI首先从用户那里收集了真实世界的提示音频和相应的文本提示,并使用 SFT 模型生成了 20 个候选响应。然后,step AI让人工标注员根据正确性、韵律和自然度的标准,对这 20 个响应进行 5 分制评分,从而构建了选择/拒绝对。只有评分差值大于 3 的对才被选中。
LLM-as-a-Judge: 模型响应由一个理解模型按照 1 到 10 的评分标准对情感和说话风格编辑进行评分。然后根据这些评分生成偏好对,最终数据集中只保留评分差值大于 8 分的对。这些选定的large-margin对将用于训练奖励模型和 PPO。
4 训练
step AI的训练后流程使模型的输出与零样本语音合成、各种编辑任务以及人类偏好保持一致。这一对齐过程通过两阶段方法实现:监督微调(SFT)后接近端策略优化。
4.1 监督微调
在 SFT 阶段,通过在聊天格式中使用不同的系统提示来增强模型的零样本文本到语音合成和编辑能力。在零样本语音合成任务中,提示波形被编码为双码本Token,随后解码为字符串格式,并作为说话者信息纳入系统提示中。待合成的文本以基于聊天的格式作为用户提示,生成的双码本Token作为系统的响应返回。对于编辑任务,所有操作都在统一的系统提示下定义。用户提示包括原始音频和编辑操作的描述性命令,系统响应则提供编辑后的音频Token。模型以 1×10-5 至 1×10-6 的学习率微调一个周期。
4.2 强化学习
强化学习进一步增强了零样本 TTS 模型的稳定性,以及其遵循编辑指令的能力和表现力。当源提示波形的情感和风格特征与目标编辑输出之间存在显著差异时,例如从快乐提示生成悲伤的语音或把大声的语音转换为耳语,这些改进尤为明显。这种强化学习方法为解决这些挑战提供了新的视角,它将重点从实现理想的语音表示解耦转移到改进large-margin对的构建以及奖励模型评估的有效性上。
奖励模型训练: 奖励模型从一个 3B SFT 模型初始化,并使用人类标注和 LLM 作为裁判生成的large-margin数据组合进行训练,采用 Bradley-Terry 损失进行优化。该模型是一个直接在large-margin双码本Token对上训练的Token级奖励模型。这种方法在奖励计算过程中无需使用音频解码器将Token转换回波形。该模型经过一个轮次的微调,学习率采用余弦衰减策略进行调整,初始值设为 2×10⁻⁵,下限设为 1×10⁻⁵。
PPO 训练: 在获得奖励模型之后,step AI使用 PPO 算法进行进一步训练,使用与奖励模型训练相同的提示种子,但仅选择对 SFT 模型最具挑战性的提示。在 PPO 训练阶段,评论家模型比行动者模型提前 80 步预热。优化器的初始学习率为 1×10⁻⁶,遵循余弦衰减计划,下限为 2×10⁻⁷。应用 PPO 剪裁阈值 e = 0.2 和 KL 散度惩罚系数 ß = 0.05。
5 评估
对模型在合成情感、风格和副语言语音方面的性能进行准确且全面的评估是一项重大挑战。为解决这一问题,step AI首先在 5.1 节介绍了一个全面且可重复的基准的构建。然后在 5.2 节中,step AI利用这个基准来展示step AI的 Step-Audio-EditX 模型的优势。
5.1 评估基准
step AI引入了 Step-Audio-Edit-Test,这是一个利用 LLM 作为评判模型来评估模型在情感、说话风格和副语言方面的性能的基准。所有评估音频均通过零样本语音克隆生成,并使用 Gemini-2.5-Pro 模型进行评分。
发言人选择: 零样本克隆所使用的发言人集合包括八位发言人(每种语言各两名男性和两名女性,涵盖中文和英文)。中文发言人来自 Wenet-Speech4TTS[28] 语料库,而英语发言人则分别来自开源的 GLOBE-V2[29] 和 Libri-Light[30] 数据集。
情感: 情感测试集涵盖五个类别:快乐、愤怒、悲伤、恐惧和惊讶。每个类别包含 50 个中文和 50 个英文提示,每个提示的文本内容都与对应的目标情感相一致。
说话风格: 测试集包括七种说话风格:孩子气、老年人气、夸张、吟诵、激情、轻佻和低语。每种风格包含 50 个中文和 50 个英文提示,内容与目标风格相匹配。
副语言: 副语言测试集每个发言人包含十个副语言标签:呼吸、笑声、惊讶哦、确认恩、嗯哼、惊讶啊、惊讶哇、叹息、疑问诶以及不满嗯嗯。每个标签包含 50 个相关的 LLM 生成的中文样本和 50 个英文样本。
情感和说话风格评估: 为了评估情绪和说话风格,会在提示中为 Gemini-2.5-Pro 模型提供预先定义的类别集(5 种情绪和 7 种风格),以指导其对音频进行分类。每个类别的最终准确率是通过所有说话者的平均值计算得出的。
非语言风格评估: 为了评估非语言编辑的性能,为 Gemini-2.5-Pro 模型设计了一个专门的评估提示,采用严格的 1-3 评分标准(3=完美,2=有缺陷,1=失败)。该提示引导模型主动检查音频中的特定评估点,例如是否准确插入了诸如 [笑声] 或 [叹气] 等注释。特别强调最常见的失败模式“遗漏”,即音频可能仍然流畅,但缺少指令中指定的必要非语言元素。最后,通过计算 Gemini-2.5-Pro 模型生成的总体平均分数来评估其在非语言编辑任务中的表现。
5.2 评估结果
本节详细介绍了step AI模型在“Step-Audio-Edit-Test”基准测试中的表现,并展示了其在对由各种闭源 TTS 系统生成的音频进行编辑时的卓越编辑精度和可扩展性。
5.2.1 情感和说话风格编辑结果
本次评估采用了音频编辑的迭代方法来处理情感和说话风格。该过程始于一个零样本克隆作为初始音频迭代,随后进行 N 轮迭代编辑。第 N 轮的输出被Token为迭代 y。在本特定设置中,N 配置为 3。对于大多数用例,两次编辑迭代就足以满足所需标准。
迭代编辑结果: 如表 1 所示,在对 Itero 音频进行初始编辑后,情感和说话风格的准确性有了显著提升。此外,通过连续的编辑迭代,情感和说话风格的准确性进一步提高。

提示音频去除: 由于后续迭代(从迭代 2 开始)中的性能提升归因于双编码器和提示音频。为了单独研究提示音频的效果,step AI进行了一项去除研究,在该研究中,提示音频在所有迭代中保持不变。如表 1 的提示固定部分所示,对于情感和说话风格的准确性,随着编辑迭代次数的增加而持续提高。这清楚地证明了step AI大范围方法的有效性。

对闭源模型的泛化研究: 对 Step-Audio-EditX 模型的情感和说话风格的泛化能力在几个领先的闭源 TTS 系统上进行了评估,这些系统包括 GPT-4o-mini-TTS、Eleven_Multilingual_v22、Doubao-Seed-TTS-2.03 和 MiniMax-speech-2.6 hd4。对于每个 TTS 系统,都选取了一个内置的男性和一个内置的女性声音来进行源文本的直接语音合成。随后,对生成的音频输出进行了三次编辑。如表 2 所示,这些闭源系统的内置语音具有相当强的上下文适应能力,能够部分传达文本中的情感。经过 Step-Audio-EditX 的一轮编辑后,所有语音模型的情感和风格准确性都有了显著提高。在接下来的两次编辑迭代中,效果更加显著,有力地证明了step AI模型的强泛化能力。
闭源模型的情绪控制: 由于受限于情感和说话风格控制功能的闭源系统数量有限,本节对 Doubao-Seed-TTS-2.0 和 MiniMax-speech-2.6-hd 进行了对比评估,这两款模型因其在零样本克隆和情绪控制方面的能力而被选中。为了满足闭源模型的最小音频长度限制并确保公平的评估,Step-AudioEdit-Test 中所有说话者的提示音频都延长了时长。这些延长的音频用于零样本克隆,随后进行了两次情绪编辑迭代。此外,克隆的声音被用于通过每个闭源模型的原生情绪控制生成情绪化的语音。此原生情绪控制的输出随后与step AI的模型进行了一轮编辑。从表 3 可以看出:
- step AI的 Step-Audio-EditX 在零样本克隆能力方面的情绪准确性优于其他两个模型。
- 经过仅一次编辑迭代后,所有音频样本的情绪准确性都有显著提高。
- 对零样本克隆音频进行的一次情感编辑处理,其效果优于那些由闭源模型自带的情感控制功能所生成的结果。

5.2.2 非语言性结果

非语言性编辑可被视为一种时域操作。step AI使用 Step-Audio-EditX 进行了一次编辑操作,并评估了其效果,同时考察了其在其他闭源系统的通用性。非语言性编辑结果。如表 4 所示,在单次编辑操作中添加非语言标签可显著提高性能。闭源模型的通用性评估。评估过程与之前相同。对于每个闭源模型,step AI使用了一位女性和一位男性的内置语音,从去除非语言标签的文本中合成语音。最终的音频随后进行了一次编辑操作。此外,为了进行对比,还通过将副语言标签替换为拟声词(例如,“[笑声]” → “哈哈”)的方式生成了额外的音频样本。在使用 Step-Audio-EditX 进行一次副语言编辑操作后,副语言再现的效果与直接合成原生副语言内容时由闭源模型内置语音所达到的效果相当。

在情感、说话风格和非语言编辑任务中的评估结果证实,step AI这种简单却强大的方法——结合强化学习的大型边际学习——能够实现高精度和强大的泛化能力。这种方法在推动研究进展和实现实际应用方面具有极大的潜力。
六、 扩展
这种大型边际学习方法可以非常直接地扩展到各种下游应用中。通过在成对的数据样本之间施加足够大的边际,模型可以通过 SFT 快速获得目标编辑能力。然后可以无缝地将强化学习集成进来,以进一步提高在复杂情况下的性能。本节详细介绍了两个实用的扩展:(1)用于控制语速的快速编辑,以及(2)去噪和静音修剪。
6.1 速度编辑
速度编辑旨在满足不同说话者和不同场景下可调节的语速需求。这是通过构建(文本、音频源、加速版、减速版)三元组来实现的,其中针对特定说话者的速度调整版本是通过使用 SoX 工具包[31]进行可控速度扰动来生成的。由于语速变化直接导致Token序列长度的巨大差异,因此仅使用 SFT 就足以实现有效的速度编辑。
6.2 去噪和静音修剪
提示音频中的背景噪声和静音片段会极大地影响零样本语音克隆的性能。该模型倾向于将这些声学特征视为说话者特征的一部分,随后在合成音频中重现它们。虽然在某些用例中这种模仿是可取的,但在其他用例中则是不可取的。为了解决这个问题,step AI使用生成方法整合了去噪和静音修剪,这使得对提示音频和合成音频的针对性编辑成为可能。
去噪: 构建了三元组(文本、音频增强、音频源)用于去噪,其中音频源作为真实参考数据,而音频增强则是通过添加噪声和混响模拟生成的。
静音修剪: 该三元组定义为(文本、音频源、音频修剪),其中音频源对应包含静音片段的原始音频,而音频修剪则是通过根据 Silero-VAD[32] 生成的时间戳提取并连接语音片段而生成的处理版本。
7 结论
在本研究中,step AI推出了 Step-Audio-EditX,这是一款基于大型语言模型的音频模型,它基于大量数据进行训练,并通过强化学习进行了优化。该模型能够实现零样本语音合成、情绪和说话风格的迭代编辑以及语调编辑。step AI发现,大型语言模型的能力以及大量数据的使用(在以往的研究中往往被忽视)使该模型能够克服音频表示的局限性。此外,所提出的框架可以很容易地扩展到各种任务中,包括方言编辑、口音编辑、声线编辑和模仿。最后,需要指出的是,step AI的音频编辑过程并非传统意义上的严格“编辑”。相反,它是一种条件再生或转移的形式。对于需要部分修改而保留其余内容的任务,step AI的方法通过重建配对数据来提供一种简单而有效的基于掩码的编辑方法,以确保编辑后的Token部分与原始序列有所不同。
更多推荐


所有评论(0)