Step-Audio-EditX,这是一个强大的基于LLM的音频模型,具有 3B参数,专门用于表达性和迭代音频编辑。它在编辑情感、说话风格和副语言方面表现出色,并且还具有强大的零样本文本转语音 (TTS) 功能。

核心功能:像编辑文本一样编辑声音

1. 多维度情感与风格控制

  • 情感编辑
  • 支持愤怒、喜悦、悲伤等数十种标签,强度可迭代增强或减弱。例如,将平淡的问候升级为“热情洋溢的推销语气”。
  • 风格编辑
  • 提供童声、耳语、老人等十余种风格,支持叠加(如“撒娇+严肃”)。
  • 副语言插入
  • 精准添加呼吸声、笑声、叹气等10类自然token,增强真实感。

2. 零样本TTS

无需录音样本,仅凭文本即可生成语音。

3. 迭代式编辑与跨模型泛化

支持多轮微调,逐步优化效果(如“再温柔一点→延长笑声0.3秒”)。

可编辑闭源模型生成的音频(如GPT-4o-mini-TTS),突破平台限制。

技术原理:大边距数据驱动的范式革命

  • 大边距合成数据训练
    Step-Audio-EditX通过零样本语音克隆生成“同文本、异属性”音频对 (如同一句话的平静版与愤怒版),结合LLM评分筛选高质量样本。
  • 两阶段后训练策略
    • 监督微调(SFT):在混合文本-音频数据上训练,支持零样本TTS和基础编辑。
    • 强化学习(PPO):引入人类标注和LLM-as-a-Judge生成的偏好数据,优化复杂编辑任务(如从快乐生成悲伤语音)。
  • 性能对比:超越闭源模型

官方链接:

  • https://huggingface.co/stepfun-ai/Step-Audio-EditX
  • https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer

【Step-Audio-EditX】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验【Step-Audio-EditX】带来的精彩体验吧!

项目入口

  • 【Step-Audio-EditX】迭代音频编辑:

https://open.virtaicloud.com/web/project/detail/645910285378613248

类似语音合成项目:

  • 【maya-research/maya1】:

https://open.virtaicloud.com/web/project/detail/644440064230912000

  • 【Supertone/supertonic】超小文本合成语音模型:

https://open.virtaicloud.com/web/project/detail/648371162766106624

视频教程

云平台一键部署【Step-Audio-EditX】迭代音频编辑_哔哩哔哩_bilibili

启动开发环境

【Step-Audio-EditX】项目主页中,点击运行一下,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接立即运行,省去个人下载数据、模型和计算算力的大量准备时间。

配置完成,点击进入开发环境,根据主页项目介绍进行部署。

使用方法

在gemini/code中找到使用说明,选中使用说明单元格,点击运行。

等待生成local URL,右侧添加端口7860。

项目使用方法

示例展示:(音频示例可在趋动云公众号查看:https://mp.weixin.qq.com/s/ll7coGEU1P4ufsbZQnZQ8A)

➫温馨提示: 完成项目后,记得及时关闭开发环境,以免继续产生费用!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐