IndexTTS2本地部署和使用
IndexTTS2是一款先进的零样本语音克隆模型,在情感表达和时长控制方面表现优异,适用于配音、有声读物等多种场景。项目提供三种使用方式:界面应用(gui_app.py)、WebUI(webui.py)和HTTP服务(infer_server.py),支持通过参考音频、情感向量或文本描述进行情感控制。用户可快速部署及使用,且模型对显存要求较低。环境搭建仅需安装PyTorch和相关依赖,项目已包含预
前言
IndexTTS2是能够零样本实现语音克隆的全新模型,在情感表达的细腻度与时长控制的精准性方面有了很大的提升,合成语音情绪自然饱满,贴近真人,广泛适用于 AI 配音、有声读物、动态漫、视频翻译、语音对话、播客创作等场景。同时IndexTTS2占用的显存也相对较低,适合低显存的设备使用。
试用地址:语音克隆
搭建环境
- 首先安装Pytorch环境,如果已经安装了Pytorch,跳过这一步,但建议创建一个新的虚拟环境,重新安装Pytorch。
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
- 安装剩下的依赖环境。
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
- 如果是Windows或者MacOS,需要安装wetext,Linux的话,需要安装WeTextProcessing,命令如下。
# Windows或者MacOS
pip install wetext>=0.0.9 -i https://pypi.tuna.tsinghua.edu.cn/simple
# Linux
pip install WeTextProcessing -i https://pypi.tuna.tsinghua.edu.cn/simple
语音克隆
本项目提供了三种语音克隆的方式,分别是:界面应用、WebUI、HTTP页面。下面分别介绍这三种方式,注意项目已经包含了预训练模型,存放在checkpoints文件夹,不需要额外下载,直接运行即可。
界面应用
界面应用是一种简单易用的语音克隆方式,运行gui_app.py文件即可打开界面应用,这种方式适合在本地电脑中运行,通过选择一条不超过30秒的wav文件作为参考语音,其实在实际上使用,也只会裁剪前15秒的语音,输入需要克隆的文本,即可合成语音。
情感控制设置
情感控制一共有4种方式,分别是:
- 与音色参考音频相同,合成的语音情感会与参考语音保持一致。
- 使用情感参考音频,需要提供一个情感参考音频,合成的语音情感会与参考语音保持一致。
- 使用情感向量控制,需要提供8个情感向量,合成的语音情感会与输入的情感向量保持一致。
- 使用情感描述文本控制,需要输入一个情感描述文本,合成的语音情感会与输入的文本情感保持一致,同时会根据输入的文本情感,调整合成语音的时长。
示例页面如下:
WebUI
WebUI是一种基于Web的语音克隆方式,运行webui.py文件即可打开WebUI,这种方式适合在本地内网快速使用,通过选择一条不超过30秒的wav文件作为参考语音,其实在实际上使用,也只会裁剪前15秒的语音,输入需要克隆的文本,即可合成语音。
情感控制设置
情感控制一共有4种方式,分别是:
- 与音色参考音频相同,合成的语音情感会与参考语音保持一致。
- 使用情感参考音频,需要提供一个情感参考音频,合成的语音情感会与参考语音保持一致。
- 使用情感向量控制,需要提供8个情感向量,合成的语音情感会与输入的情感向量保持一致。
- 使用情感描述文本控制,需要输入一个情感描述文本,合成的语音情感会与输入的文本情感保持一致,同时会根据输入的文本情感,调整合成语音的时长。
打开地址http://localhost:7860页面如下:
HTTP页面
HTTP页面是一种基于HTTP协议的语音克隆方式,运行infer_server.py文件运行语音克隆服务,服务默认端口为8000,这种方式适合部署在服务器上,开启服务接口给其他设备或页面使用。通过选择一条不超过30秒的wav文件作为参考语音,其实在实际上使用,也只会裁剪前15秒的语音,输入需要克隆的文本,即可合成语音。
提供的接口为,具体的参数可以查看infer_server.py文件。
- POST
/infer:语音克隆接口,输入参考语音、需要克隆的文本、情感控制参数,返回合成的语音。
情感控制设置
情感控制一共有4种方式,分别是:
- 与音色参考音频相同,合成的语音情感会与参考语音保持一致。
- 使用情感参考音频,需要提供一个情感参考音频,合成的语音情感会与参考语音保持一致。
- 使用情感向量控制,需要提供8个情感向量,合成的语音情感会与输入的情感向量保持一致。
- 使用情感描述文本控制,需要输入一个情感描述文本,合成的语音情感会与输入的文本情感保持一致,同时会根据输入的文本情感,调整合成语音的时长。
提供了默认的首页,打开服务地址,如你的服务地址是http://localhost:8000,则默认首页是http://localhost:8000/ ,示例页面如下,把localhost替换为你的服务器IP即可。
扫码入知识星球,搜索【IndexTTS2本地部署和使用】获取源码
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)