GPT-SoVITS V2本地部署与远程访问实战


从零开始搭建你的AI语音克隆系统

你有没有想过,只需要一段30秒的录音,就能让AI完美复刻你的声音?在配音、短视频创作甚至虚拟主播领域,个性化语音合成(TTS)正变得越来越重要。而如今,这项技术不再局限于大厂实验室——借助开源项目 GPT-SoVITS,普通人也能轻松训练出高度拟真的“数字声线”。

这个项目在GitHub上收获了超过35K stars,最新发布的 V2版本 更是带来了质的飞跃:支持中、英、日、韩、粤语五种语言混合处理,新增语速调节和无参考推理模式,跨语种音色融合能力也大幅提升。

更贴心的是,开发者为Windows用户准备了开箱即用的整合包镜像,无需配置Python环境或安装依赖库,双击即可启动。但问题也随之而来:这类本地服务默认只能在同一局域网内访问,一旦离开当前网络就无法使用。

别急!本文将带你一步步完成从本地部署到公网访问的全过程。我们将结合内网穿透工具 cpolar,即使没有公网IP、域名或服务器,也能让你随时随地通过浏览器操控这台语音克隆机器。

全程图文详解,小白也能轻松上手。


什么是GPT-SoVITS镜像?

所谓“镜像”,其实就是一个打包好的完整运行环境压缩包,里面包含了Python解释器、所有依赖库、预训练模型以及WebUI界面。你不需要懂代码,也不用折腾环境变量,下载解压后直接运行脚本就能用。

这种设计特别适合三类人群:

  • 想尝试AI语音克隆但对技术一窍不通的新手
  • 需要快速验证效果的内容创作者
  • 希望数据完全本地化以保障隐私的研究者或企业用户

它的核心优势也很明确:

✅ 极低数据需求:仅需约1分钟高质量人声录音
✅ 高保真还原:结合GPT语言模型与SoVITS声学模型,连呼吸感都能模仿
✅ 多语言支持:可实现中文、英文、日文等语言间的自由切换
✅ 图形化操作:上传音频、输入文本、调整参数、导出结果一站式完成

🔗 官方项目地址:https://github.com/RVC-Boss/GPT-SoVITS
📦 镜像下载页:语雀文档页面

接下来我们就基于这个镜像,一步步把系统跑起来,并让它走出本地局域网。


环境准备与镜像获取

本教程以 Windows 10/11 系统为例,硬件建议如下:

组件 推荐配置
操作系统 Windows 10 或 11(64位)
显卡 NVIDIA GPU,显存 ≥ 6GB(如RTX 3060及以上)
内存 ≥ 16GB RAM
存储空间 至少保留 10GB 可用空间

⚠️ 注意事项:
- 若显卡不满足要求,部分推理任务可能失败或极其缓慢;
- 集成显卡基本无法运行;
- 解压路径请避免包含中文或空格,否则可能导致脚本报错。

下载镜像包

进入官方提供的语雀文档页面:

👉 https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4

向下滚动找到“V2整合包”部分,选择百度网盘、阿里云盘或迅雷链接进行下载。推荐使用IDM或迅雷加速。

文件名类似 GPT-SoVITS-v2-240821.7z,大小约为 5~7GB

解压并检查结构

使用7-Zip或WinRAR解压至一个干净目录,例如:

D:\AI_Tools\GPT-SoVITS-v2-240821

完成后应看到以下关键文件:

GPT-SoVITS-v2-240821/
├── go-webui.bat              ← 启动脚本
├── config.json               ← 配置文件
├── models/                   ← 模型存储目录
├── logs/                     ← 日志输出
└── requirements.txt          ← Python依赖列表(已内置)

到这里,准备工作就完成了。


启动本地服务

双击根目录下的 go-webui.bat 文件,会自动弹出命令行窗口并开始初始化服务。

首次运行时会检测环境、加载模型权重,整个过程大约需要 2~5分钟,具体时间取决于GPU性能和硬盘读取速度,请耐心等待。

当出现以下提示时,表示服务已成功启动:

Running on local URL:  http://127.0.0.1:9874

此时浏览器通常会自动打开网页地址:http://127.0.0.1:9874,显示 GPT-SoVITS 的 WebUI 界面。

❗ 切记不要关闭那个黑色CMD窗口!它是后台服务进程,关闭即终止服务。

如果浏览器未自动打开,可以手动复制上述地址粘贴访问。


快速体验语音克隆功能

进入主界面后,默认展示的是 0 - 前置数据集获取工具,主要用于音频预处理(如去噪、人声分离)。如果你已有清晰的人声片段,可以直接跳转至 1-GPT-SoVITS-TTS 页面进行语音合成。

进入TTS推理界面

点击顶部导航栏的 1-GPT-SoVITS-TTS → 选择子选项卡 1C-推理 → 点击【开启TTS推理WebUI】按钮。

稍等片刻,新页面将在浏览器中打开,地址为:http://127.0.0.1:9880

这是独立的TTS前端,专用于文本转语音任务。

上传参考音频

在左侧区域点击【上传参考音频】,选择一段30秒~1分钟的原始人声录音(WAV或MP3格式均可)。

✅ 支持格式:.wav, .mp3, .flac
⛔ 不建议超过5分钟,否则加载时间长且可能影响建模精度

上传成功后,系统会自动提取音色特征并生成对应的声音标识符(sovits_name),后续合成将基于该音色进行。

输入文本并合成语音

填写以下关键参数:

参数 说明
目标文本 要合成的句子,支持中英文混输
语种 建议手动指定语言,避免自动识别错误
语速 可调节0.8~1.2倍速,控制说话节奏
是否启用GPT模型 开启后语义更自然,但耗时略增

确认无误后,点击【合成语音】按钮。

等待几秒到十几秒(取决于GPU性能),右侧将出现播放控件和下载按钮。

✅ 成功示例:你可以听到生成的声音几乎完全复刻了原声的音色、语调甚至呼吸停顿,极具真实感!

点击右上角的下载图标,即可将 .wav 格式的AI语音保存到本地。


让AI语音走出局域网:内网穿透实战

目前我们只能在部署电脑所在的本地网络中访问 GPT-SoVITS。这意味着一旦你离开家里的Wi-Fi,或者想分享给朋友体验,就再也连不上了。

这显然不够实用。好在我们可以通过 内网穿透工具 把本地服务暴露到公网,获得一个可通过互联网访问的URL地址。

本文选用的是国内用户广泛使用的 cpolar 工具,无需公网IP、无需自建服务器,几分钟即可完成配置。

安装与登录

  1. 访问 cpolar 官网:https://www.cpolar.com
  2. 注册账号并登录
  3. 下载 Windows 版客户端,安装过程一路“下一步”即可
  4. 安装完成后,打开浏览器访问:http://localhost:9200
  5. 使用注册账号登录 Web UI 管理界面

💡 提示:cpolar 提供免费套餐,足以满足日常测试需求;付费版支持固定域名、更高带宽和多隧道并发。


创建临时公网访问地址

在 cpolar Web UI 中执行以下操作:

  1. 点击左侧菜单【隧道管理】→【创建隧道】
  2. 填写以下信息:
字段 设置值
隧道名称 GPTSoVITS-Temp(可自定义)
协议类型 http
本地地址 9874(GPT-SoVITS 主WebUI端口)
域名类型 随机域名
地区节点 China Top
高级设置 可选添加 HTTP Auth(如 user:password)提升安全性

点击【保存】后,系统立即生成两个公网访问地址:

https://xxxxx.cpolar.cn
http://xxxxx.cpolar.cn

复制任一地址,在手机、平板或异地电脑的浏览器中打开,即可访问你本地运行的 GPT-SoVITS 主界面!

🔐 若设置了 HTTP Auth,则需输入用户名密码才能进入,防止未授权访问。

🎯 实际应用场景举例:
- 出差途中远程生成一段配音用于剪辑
- 分享链接给朋友体验“你的AI声音”
- 团队成员协同调试不同音色参数

但要注意:这种“随机域名”会在 24小时后失效并更换地址,不适合长期稳定使用。


升级为固定公网地址,打造专属语音服务

如果你想长期对外提供服务(比如搭建私人语音API、持续分享链接),建议升级为 固定二级子域名,获得一个永久不变的专属网址。

步骤一:预留固定子域名

  1. 登录 cpolar 官网
  2. 进入【预留】页面 → 选择【保留二级子域名】
  3. 填写信息:
项目 示例
地区 China VIP(稳定性更高)
子域名 myvoice
备注 “GPT-SoVITS语音服务”

点击【保留】后,系统分配固定地址:

https://myvoice.cpolar.cn

此地址永久有效,不会变更。

步骤二:绑定到现有隧道

回到本地 cpolar Web UI(http://localhost:9200

  1. 进入【隧道列表】
  2. 找到之前创建的 GPTSoVITS-Temp 隧道,点击【编辑】
  3. 修改配置:
  • 域名类型 → 二级子域名
  • Sub Domain → 输入你保留的名称(如 myvoice
  • 地区 → 保持与预留一致(如 China VIP)

点击【更新】

刷新隧道列表,新的固定地址已生效!

现在你可以使用这个固定的公网地址:

👉 https://myvoice.cpolar.cn

随时随地访问你的 GPT-SoVITS 语音克隆系统,无需重复配置,也不怕地址过期。


总结与延伸思考

到现在为止,你应该已经顺利完成 GPT-SoVITS V2 的本地部署,并实现了真正的远程可用性。这套方案的核心价值在于:

  • 零门槛接入AI语音技术:整合包免去了复杂的环境配置
  • 数据自主可控:所有音频和模型都保存在本地,隐私更有保障
  • 灵活扩展性强:通过内网穿透,即使是家庭PC也能变成“私有语音服务器”

未来你可以进一步探索的方向包括:

🔹 多音色混合合成:尝试融合多个声音特征,创造出全新的“虚拟声线”
🔹 自定义训练高质量模型:使用更长时间的音频样本训练专属高保真模型
🔹 结合语音驱动动画做虚拟主播:搭配SadTalker或Wav2Lip,打造会说话的数字人
🔹 搭建私有TTS API接口服务:通过Flask封装接口,供其他程序调用

最后提醒一点:根据 GPT-SoVITS 开源协议,请在发布任何基于该项目制作的内容时,明确标注“使用 GPT-SoVITS 技术生成”,并附带免责声明:“本作品仅作娱乐用途,后果与项目作者无关。”

AI语音的世界才刚刚开始,愿你在创造的路上越走越远。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐