开源的流式文本转语音（TTS）模型（英法）速览：tts-1.6b-en_fr

Panesle

1126人浏览 · 2025-07-07 22:30:00

Panesle · 2025-07-07 22:30:00 发布

Kyutai TTS模型介绍

一、模型概述

Kyutai TTS是一个用于流式文本转语音（TTS）的模型。与传统的离线文本转语音模型不同，该模型在接收到文本的前几个词后就能开始输出音频，而不是需要整个文本才能生成音频。这使得它在实时应用中具有显著的优势。

二、模型架构与细节

模型架构

Kyutai TTS的架构基于分层Transformer，它接收的是经过分词处理的文本，并生成由Mimi模型分词的音频。该模型的帧率是12.5Hz，每个音频帧由32个音频令牌表示，但在推理时可以使用更少的令牌以加快生成速度。模型的主体部分拥有10亿个参数，其深度Transformer部分有6亿个参数，并采用与Hibiki类似的权重部分共享机制。音频相对于文本的偏移量为16步（1.28秒），并且模型采用了声学/语义延迟为2的设计。

模型描述

Kyutai TTS是一个仅解码器的模型，用于流式语音转文本。它利用Moshi的多流架构来基于语音流建模文本流。文本流相对于音频流偏移，使模型能够根据输入的音频预测文本令牌。

开发者与许可

该模型由Kyutai团队开发，属于流式文本转语音模型，支持英语和法语。模型的权重在知识共享署名4.0（CC-BY 4.0）许可下发布。

三、应用场景

直接应用

Kyutai TTS能够进行流式文本转语音的生成，包括对话场景。该模型支持通过预计算的嵌入进行语音条件设置，这些嵌入在tts-voices仓库中为多个语音提供。尽管模型本身不直接支持Classifier Free Guidance（CFG），但它是通过CFG蒸馏训练的，从而提高了速度（无需加倍批量大小）。该模型易于批处理，可以达到每计算单位时间75倍的生成音频吞吐量。此外，该模型不进行水印处理，原因有两个：一是开源模型的水印容易被禁用；二是早期实验表明，通过Mimi对音频进行简单的编码和解码，就可以去除现有TTS所使用的水印系统。因此，该模型更倾向于限制语音克隆能力，仅使用预计算的语音嵌入。

四、如何开始使用该模型

可以通过GitHub仓库了解如何开始使用Kyutai TTS模型。

五、训练详情

训练步骤

该模型训练了75万步，采用的批量大小为64，每个片段的持续时间为120秒。然后，进行了24万次CFG蒸馏更新。

六、训练数据

预训练阶段使用了250万小时的公开可用音频内容。对于该数据集，通过运行带有whisper-medium的whispertimestamped获得合成的转录文本。

七、计算基础设施

预训练使用了32个Nvidia H100 GPU进行。而CFG蒸馏则在8个这样的GPU上完成。

八、核心技术汇总

在这里插入图片描述

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

2026 Python开发效率跃迁：用Gemini镜像站搞定数据分析、爬虫与自动化脚本

Python的强项在于以最少代码实现强大功能，而Gemini的强项是帮你瞬间找到那“最少代码”的正确写法。两者结合，能让开发者从大量体力型编码中抽身，专注于问题和逻辑本身。如果你想立刻体验AI辅助Python开发的效率，可以访问RskAi。不妨上传一份手头积压的CSV数据，或用一段想写的脚本功能描述，看Gemini如何替你完成那些枯燥的代码编织工作。【本文完】

智能体开发者社区

2026国内AI镜像站入门指南：零基础使用Gemini镜像站、GPT与Claude三合一教程

对于想要绕过繁琐配置、以低成本同时体验世界主流AI模型能力的用户来说，选择国内直访的聚合镜像站是一条务实路径。它让你专注于“用AI解决什么问题”，而不是“怎么连上AI”。在众多选项中，RskAi三模型聚合值得作为上手首选。建议你现在就打开浏览器，用一个工作中或学习中的真实问题去测试它的能力。比如上传一份明天要交的报告草稿，让它帮你润色；或者扔给它一段有bug的代码，看看AI如何解读和改进。第一次亲