IndexTTS2本地部署和使用

IndexTTS2是一款先进的零样本语音克隆模型，在情感表达和时长控制方面表现优异，适用于配音、有声读物等多种场景。项目提供三种使用方式：界面应用（gui_app.py）、WebUI（webui.py）和HTTP服务（infer_server.py），支持通过参考音频、情感向量或文本描述进行情感控制。用户可快速部署及使用，且模型对显存要求较低。环境搭建仅需安装PyTorch和相关依赖，项目已包含预

夜雨飘零1

2807人浏览 · 2025-11-12 20:27:34

夜雨飘零1 · 2025-11-12 20:27:34 发布

前言

IndexTTS2是能够零样本实现语音克隆的全新模型，在情感表达的细腻度与时长控制的精准性方面有了很大的提升，合成语音情绪自然饱满，贴近真人，广泛适用于 AI 配音、有声读物、动态漫、视频翻译、语音对话、播客创作等场景。同时IndexTTS2占用的显存也相对较低，适合低显存的设备使用。

试用地址：语音克隆

搭建环境

首先安装Pytorch环境，如果已经安装了Pytorch，跳过这一步，但建议创建一个新的虚拟环境，重新安装Pytorch。

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

安装剩下的依赖环境。

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

如果是Windows或者MacOS，需要安装wetext，Linux的话，需要安装WeTextProcessing，命令如下。

# Windows或者MacOS
pip install wetext>=0.0.9 -i https://pypi.tuna.tsinghua.edu.cn/simple
# Linux
pip install WeTextProcessing -i https://pypi.tuna.tsinghua.edu.cn/simple

语音克隆

本项目提供了三种语音克隆的方式，分别是：界面应用、WebUI、HTTP页面。下面分别介绍这三种方式，注意项目已经包含了预训练模型，存放在checkpoints文件夹，不需要额外下载，直接运行即可。

界面应用

界面应用是一种简单易用的语音克隆方式，运行gui_app.py文件即可打开界面应用，这种方式适合在本地电脑中运行，通过选择一条不超过30秒的wav文件作为参考语音，其实在实际上使用，也只会裁剪前15秒的语音，输入需要克隆的文本，即可合成语音。

情感控制设置

情感控制一共有4种方式，分别是：

与音色参考音频相同，合成的语音情感会与参考语音保持一致。
使用情感参考音频，需要提供一个情感参考音频，合成的语音情感会与参考语音保持一致。
使用情感向量控制，需要提供8个情感向量，合成的语音情感会与输入的情感向量保持一致。
使用情感描述文本控制，需要输入一个情感描述文本，合成的语音情感会与输入的文本情感保持一致，同时会根据输入的文本情感，调整合成语音的时长。

示例页面如下：

WebUI

WebUI是一种基于Web的语音克隆方式，运行webui.py文件即可打开WebUI，这种方式适合在本地内网快速使用，通过选择一条不超过30秒的wav文件作为参考语音，其实在实际上使用，也只会裁剪前15秒的语音，输入需要克隆的文本，即可合成语音。

情感控制设置

情感控制一共有4种方式，分别是：

与音色参考音频相同，合成的语音情感会与参考语音保持一致。
使用情感参考音频，需要提供一个情感参考音频，合成的语音情感会与参考语音保持一致。
使用情感向量控制，需要提供8个情感向量，合成的语音情感会与输入的情感向量保持一致。
使用情感描述文本控制，需要输入一个情感描述文本，合成的语音情感会与输入的文本情感保持一致，同时会根据输入的文本情感，调整合成语音的时长。

打开地址http://localhost:7860页面如下：

HTTP页面

HTTP页面是一种基于HTTP协议的语音克隆方式，运行infer_server.py文件运行语音克隆服务，服务默认端口为8000，这种方式适合部署在服务器上，开启服务接口给其他设备或页面使用。通过选择一条不超过30秒的wav文件作为参考语音，其实在实际上使用，也只会裁剪前15秒的语音，输入需要克隆的文本，即可合成语音。

提供的接口为，具体的参数可以查看infer_server.py文件。

POST /infer：语音克隆接口，输入参考语音、需要克隆的文本、情感控制参数，返回合成的语音。

情感控制设置

情感控制一共有4种方式，分别是：

与音色参考音频相同，合成的语音情感会与参考语音保持一致。
使用情感参考音频，需要提供一个情感参考音频，合成的语音情感会与参考语音保持一致。
使用情感向量控制，需要提供8个情感向量，合成的语音情感会与输入的情感向量保持一致。
使用情感描述文本控制，需要输入一个情感描述文本，合成的语音情感会与输入的文本情感保持一致，同时会根据输入的文本情感，调整合成语音的时长。

提供了默认的首页，打开服务地址，如你的服务地址是http://localhost:8000，则默认首页是http://localhost:8000/ ，示例页面如下，把localhost替换为你的服务器IP即可。

扫码入知识星球，搜索【IndexTTS2本地部署和使用】获取源码

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla