在这里插入图片描述

一个免费、本地运行的 AI 语音工作室,让你从 3 秒音频克隆任意声音,用 7 个 TTS 引擎生成多语言语音,还能让 AI agent 用你克隆的声音跟你对话。

这个项目解决什么问题?

录了个视频想加配音,发现 ElevenLabs 的语音克隆一个月要 99 美元。写了个 AI 工具想让它能开口说话,发现 WisprFlow 只做语音输入不做语音输出。想给播客角色配不同的声音,发现每个引擎只能干一件事。

Voicebox 把语音 AI 的输入和输出拼在了一起——语音克隆、文本转语音、语音转文本、AI agent 语音输出,全部本地运行。7 个 TTS 引擎随意切换,23 种语言覆盖,还能给每个声音配一个"人格"——让同一个克隆声音用不同语气说话。

快速上手

安装

# macOS Apple Silicon
curl -L -o voicebox.dmg https://voicebox.sh/download/mac-arm
# macOS Intel
curl -L -o voicebox.dmg https://voicebox.sh/download/mac-intel
# Windows
curl -L -o voicebox.msi https://voicebox.sh/download/windows
# Docker
docker compose up

最简使用

  1. 打开 Voicebox 桌面应用
  2. 点击"添加声音"→ 拖入一段 3-10 秒的音频文件(WAV/MP3/FLAC)
  3. 选一个 TTS 引擎(推荐 Qwen3-TTS 或 Chatterbox Multilingual)
  4. 输入文本,点击生成——几秒后就能听到克隆的声音

全局听写

⌘⌥(macOS)或 Ctrl+Alt(Windows),在任何应用中说话,语音自动转文字粘贴到当前输入框。Whisper 本地运行,无需联网。

让 AI agent 开口说话

Voicebox 内建 MCP 服务器。在 Claude Code、Cursor 或 Cline 中配置 MCP 连接后,agent 只需调用 voicebox.speak 就能用你克隆的声音说话。每个 agent 可以绑定不同的声音——Claude Code 用 Morgan 的声音,Cursor 用 Scarlett 的声音。

常见踩坑

  • 首次使用需要下载模型(几百 MB 到几 GB),建议在有网络的环境下提前下载
  • GPU 要求:macOS 需要 Apple Silicon(M1+),Windows/Linux 需要 NVIDIA GPU(CUDA)
  • 部分引擎只支持英文(Chatterbox Multilingual 支持 23 种语言,是最广的)
  • 生成过程中 GPU 会被独占,同一时间只能跑一个生成任务

技术原理

Voicebox 的核心架构是"一个前端 + 一个后端 + 一堆引擎"。

前端是 Tauri(Rust)写的桌面应用,负责 UI 和系统交互。Tauri 比 Electron 轻很多——二进制文件小、内存占用低。后端是 Python FastAPI 服务,管理所有的 TTS 引擎、语音克隆、音频处理和数据库。

7 个 TTS 引擎各有定位:

引擎 大小 语言 强项
Qwen3-TTS 0.6B / 1.7B 10 指令式控制(“说慢点”“用气声说”)
Chatterbox Multilingual 23 语言覆盖最广
Chatterbox Turbo 350M 英文 带情感标签([笑][叹气])
LuxTTS 轻量 英文 48kHz 输出,CPU 也能跑
Kokoro 82M 8 50 个预设声音,CPU 推理超快
TADA (HumeAI) 1B / 3B 10 超长连贯音频(700 秒+)

每个引擎是一个独立的 PyTorch 模型,Voicebox 用统一的调用接口封装它们。选择引擎并输入文本后,后端加载对应模型的 checkpoint,如果启用了语音克隆,将参考音频的特征注入模型,然后运行推理生成音频,最后应用后处理效果链。

语音克隆走的是零样本路径——不需要对参考声音做 fine-tune。一个 speaker encoder 把参考音频编码成 embedding 向量,注入到 TTS 模型的 cross-attention 层。参考音频最短 3 秒就能工作,10-30 秒效果更好。

长文本自动按句子边界分块(可配置 100-5000 字符),每块独立生成,然后 crossfade 拼接。支持 50000 字符上限,对文章和章节级别的 TTS 足够了。

每次生成都有来源追踪——原始输出、加效果后的版本、重新生成的 takes。每个版本记录 lineage,方便回溯。

架构分析

Voicebox 的模块划分:

voicebox/
├── app/          ← React 前端
├── backend/      ← Python FastAPI 后端
│   ├── routes/   ← API 路由
│   ├── services/ ← 核心逻辑
│   ├── mcp_server/ ← MCP 协议服务器
│   ├── database/ ← SQLite 数据库
│   └── config.py ← 配置管理
├── tauri/        ← Tauri 壳(Rust)
├── web/          ← Web 版前端
└── docs/         ← 文档

设计上几个值得说的点:

后端与前端完全分离。Python 后端是独立服务,不依赖 Tauri。你可以只启动后端(uvicorn backend.main:app --port 17493),用任何 HTTP 客户端调用 REST API。这为 Docker 部署和云部署留了路。

MCP 是一等公民,不是事后插件。mcp_server/ 和 REST API 并列,这让 Voicebox 天然适合 AI agent 集成。

每个 TTS 引擎是一个独立的服务类,注册到引擎注册表。新增引擎只需要实现统一接口,不需要改核心逻辑。

任务队列用串行队列管理生成任务,避免多个引擎同时抢占 GPU。支持 SSE 状态推送。

不太好的地方:

模型下载没有统一的包管理器。每个引擎在首次使用时各自下载,没有全局的模型仓库管理,用户可能会搞不清哪些模型已下载、哪些还没下。

引擎切换需要手动。没有自动选引擎的智能路由,用户需要知道每个引擎的特性才能选对——对小白用户门槛偏高。

优缺点 & 适用场景

优点:

  • 完全本地运行,隐私天花板
  • 7 个 TTS 引擎随意切换,从轻量 CPU 到高端 GPU 都有得选
  • MCP 协议支持让 AI agent 集成零门槛
  • 语音克隆 + 听写 + TTS 三合一,一个软件顶三个

缺点:

  • GPU 要求不低,部分引擎需要 8GB+ VRAM
  • 引擎选择对新手不友好——7 个引擎各有长短
  • 0.5.0 还在早期,稳定性待验证

谁应该立刻试试:

  • 内容创作者:播客、配音、视频旁白
  • AI 应用开发者:需要让 agent 说话的产品
  • 隐私敏感用户:不想把声音数据交给云端

谁应该再等等:

  • 需要零配置开箱即用的用户
  • 只做单一语言简单 TTS 的,浏览器在线 TTS 可能已经够用了
Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐