云平台一键部署【Step-Audio-EditX】迭代音频编辑

Step-Audio-EditX是一款基于LLM的3B参数音频模型，专注于表达性音频编辑和零样本TTS功能。核心创新包括：1）支持情感（愤怒/喜悦等）、风格（童声/耳语等）和副语言（笑声/叹气等）的多维度编辑；2）无需样本的文本转语音能力；3）支持迭代优化和跨模型编辑。采用大边距数据训练和两阶段学习策略（SFT+PPO），性能超越闭源模型。该模型已在趋动云平台上线，提供一键部署功能，并附有详细教程

virtaitech

823人浏览 · 2025-12-03 11:00:45

virtaitech · 2025-12-03 11:00:45 发布

Step-Audio-EditX，这是一个强大的基于LLM的音频模型，具有 3B参数，专门用于表达性和迭代音频编辑。它在编辑情感、说话风格和副语言方面表现出色，并且还具有强大的零样本文本转语音 (TTS) 功能。

核心功能：像编辑文本一样编辑声音

1. 多维度情感与风格控制

情感编辑
支持愤怒、喜悦、悲伤等数十种标签，强度可迭代增强或减弱。例如，将平淡的问候升级为“热情洋溢的推销语气”。
风格编辑
提供童声、耳语、老人等十余种风格，支持叠加（如“撒娇+严肃”）。
副语言插入
精准添加呼吸声、笑声、叹气等10类自然token，增强真实感。

2. 零样本TTS

无需录音样本，仅凭文本即可生成语音。

3. 迭代式编辑与跨模型泛化

支持多轮微调，逐步优化效果（如“再温柔一点→延长笑声0.3秒”）。

可编辑闭源模型生成的音频（如GPT-4o-mini-TTS），突破平台限制。

技术原理：大边距数据驱动的范式革命

大边距合成数据训练
Step-Audio-EditX通过零样本语音克隆生成“同文本、异属性”音频对（如同一句话的平静版与愤怒版），结合LLM评分筛选高质量样本。
两阶段后训练策略
- 监督微调（SFT）：在混合文本-音频数据上训练，支持零样本TTS和基础编辑。
- 强化学习（PPO）：引入人类标注和LLM-as-a-Judge生成的偏好数据，优化复杂编辑任务（如从快乐生成悲伤语音）。
性能对比：超越闭源模型

官方链接：

https://huggingface.co/stepfun-ai/Step-Audio-EditX
https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer

【Step-Audio-EditX】模型已经在趋动云『社区项目』上线，无需自己创建环境、下载模型，一键即可快速部署，快来体验【Step-Audio-EditX】带来的精彩体验吧！

项目入口

【Step-Audio-EditX】迭代音频编辑：

https://open.virtaicloud.com/web/project/detail/645910285378613248

类似语音合成项目：

【maya-research/maya1】：

https://open.virtaicloud.com/web/project/detail/644440064230912000

【Supertone/supertonic】超小文本合成语音模型：

https://open.virtaicloud.com/web/project/detail/648371162766106624

视频教程

云平台一键部署【Step-Audio-EditX】迭代音频编辑_哔哩哔哩_bilibili

启动开发环境

【Step-Audio-EditX】项目主页中，点击运行一下，将项目一键克隆至工作空间，『社区项目』推荐适用的算力规格，可以直接立即运行，省去个人下载数据、模型和计算算力的大量准备时间。

配置完成，点击进入开发环境，根据主页项目介绍进行部署。

使用方法

在gemini/code中找到使用说明，选中使用说明单元格，点击运行。

等待生成local URL，右侧添加端口7860。

项目使用方法

示例展示:（音频示例可在趋动云公众号查看：https://mp.weixin.qq.com/s/ll7coGEU1P4ufsbZQnZQ8A）

➫温馨提示：完成项目后，记得及时关闭开发环境，以免继续产生费用！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla