支持情感夸张控制的文本转语音开源模型:chatterbox
Chatterbox TTS是Resemble AI推出的首个生产级开源文本转语音模型,采用MIT许可证。该模型基于0.5B参数的Llama主干,在50万小时清洁数据上训练,具有零样本TTS能力、独特的情感夸张控制功能,并支持语音转换。对比评估显示其性能优于ElevenLabs等封闭系统。安装简便,用户可通过Python脚本轻松生成语音,还能调整语音表达强度。模型包含感知水印技术,适用于视频、游戏
一、Chatterbox TTS 介绍
Resemble AI 推出了 Chatterbox,这是该公司首个生产级开源文本转语音(TTS)模型。它采用 MIT 许可证,与像 ElevenLabs 这样的封闭源系统相比,在对比评估中更受青睐。Chatterbox 适用于制作模因、视频、游戏或 AI 代理等多种应用场景,它是首个支持情感夸张控制的开源 TTS 模型,能让声音更具特色。
二、关键特点
以下是 Chatterbox TTS 的主要特点:
-
SoTA 零样本 TTS:能够处理未曾见过的文本。
-
0.5B Llama 主干:基于强大的预训练模型。
-
独特的夸张/强度控制:可调节语音的情感表达。
-
超稳定,具有对齐感知推理:确保输出语音的质量和稳定性。
-
在 0.5M 小时的清洁数据上训练:庞大的数据集支持。
-
水印输出:包含感知阈值水印(PerTh Watermarker)。
-
易于使用的语音转换脚本:方便用户进行语音转换。
-
超越 ElevenLabs:在性能上优于其他系统。
三、使用建议
一般使用(TTS 和语音代理):
-
默认设置(夸张度=0.5,cfg=0.5)适用于大多数提示。
-
如果参考说话者语速较快,可将 cfg 降低到约 0.3 以改善节奏。
表达性或戏剧性语音:
-
尝试降低 cfg 值(例如约 0.3)并增加夸张度到 0.7 或更高。
-
较高的夸张度会加快语速;降低 cfg 可以通过更慢、更谨慎的节奏进行补偿。
四、安装与使用
安装:
pip install chatterbox-tts
使用示例
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
model = ChatterboxTTS.from_pretrained(device="cuda")
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)
# 如果要使用不同的声音合成,指定音频提示
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)
可查看 example_tts.py 获取更多示例。
五、致谢与免责声明
-
致谢:Cosyvoice、HiFT-GAN、Llama 3。
-
免责声明:不要使用该模型做有害的事情。提示来自互联网上可自由获取的数据。
六、核心技术汇总表

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐

所有评论(0)