阶跃星辰开源的文本转语音模型Step-Audio-TTS-3B 现已上线模力方舟 Serverless API,访问以下连接即可体验使用:https://ai.gitee.com/serverless-api?model=Step-Audio-TTS-3B

图片

Step-Audio-TTS-3B是业界首个基于大规模合成数据集并采用 LLM-Chat 范式训练的文本转语音(TTS)模型。该模型在SEED TTS Eval基准测试中取得了SOTA(最先进的)字符错误率成绩。

内容一致性的表现对比中,的中英文 CER(字符错误率)和 WER(词错误率)均表现出色

内容一致性的表现对比中,Step-Audio-TTS-3B的中英文 CER(字符错误率)和 WER(词错误率)均表现出色

Step-Audio-TTS-3B支持多种语言、丰富的情感表达以及多样的语音风格控制。特别值得注意的是,Step-Audio-TTS-3B也是业界首个能够生成说唱和哼唱的 TTS 模型。

于谦大爷音色示例
于谦大爷音色示例

四川话示例
四川话示例

哼唱示例
哼唱示例

点击文末阅读原文,前往模力方舟体验Step-Audio-TTS-3B吧!

阅读全文

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐