ComfyUI-VibeVoice：ComfyUI中强大的语音合成插件

广播剧与有声读物制作：能够方便地实现多角色对话的语音合成，为不同角色克隆独特的声音，使广播剧和有声读物中的角色更加鲜活，极大提升内容的吸引力与沉浸感。播客创作：创作者可以轻松创建具有专业品质的播客内容，通过克隆不同风格的声音来模拟嘉宾对话，还能灵活调整语音风格与节奏，让播客更具个性和魅力。语音助手开发：可用于开发具有个性化语音的语音助手，通过声音克隆技术为语音助手赋予独特的声音，使其更贴合用户需求

迈火

942人浏览 · 2025-11-23 09:00:00

迈火 · 2025-11-23 09:00:00 发布

一、应用介绍

ComfyUI-VibeVoice是一款将微软Vibe Voice集成到ComfyUI中的插件，具有以下丰富的应用场景：

广播剧与有声读物制作：能够方便地实现多角色对话的语音合成，为不同角色克隆独特的声音，使广播剧和有声读物中的角色更加鲜活，极大提升内容的吸引力与沉浸感。
播客创作：创作者可以轻松创建具有专业品质的播客内容，通过克隆不同风格的声音来模拟嘉宾对话，还能灵活调整语音风格与节奏，让播客更具个性和魅力。
语音助手开发：可用于开发具有个性化语音的语音助手，通过声音克隆技术为语音助手赋予独特的声音，使其更贴合用户需求与使用场景。
影视配音与动画配音：为影视和动画中的角色进行配音，能够快速生成符合角色特点的语音，提高配音效率，丰富配音的风格和表现形式。

二、与传统方法对比

对比项目	传统方法	ComfyUI-VibeVoice
操作便捷性	通常需要使用专业的语音合成软件，操作复杂，学习成本高	基于ComfyUI的图形化界面，以节点连接和参数设置方式操作，上手容易
多角色处理	多角色语音合成需要分别处理每个角色的语音，再进行后期混音等操作，过程繁琐	支持最多4个角色的对话合成，可轻松实现多角色的语音交互
声音克隆难度	声音克隆往往需要大量的语音数据和专业的训练工具，操作难度大	支持零-shot声音克隆，只需提供少量音频样本即可快速克隆声音
灵活性	参数调整通常在软件界面中进行，不够直观和灵活，对不同场景的适应性较差	提供了丰富的可调节参数，如注意力机制、扩散步数等，可根据需求精细调整语音合成效果

三、插件下载地址和安装方法

下载地址
- GitHub：https://github.com/wildminder/comfyui-vibevoice.git
- ComfyUI Manager：可在ComfyUI的Manager中搜索“ComfyUI-VibeVoice”进行下载
安装方法
- 使用ComfyUI Manager安装
  - 点击ComfyUI主菜单中的Manager按钮。
  - 选择Custom Nodes Manager按钮。
  - 在搜索栏中输入“ComfyUI-VibeVoice”，找到插件后点击安装。
  - 安装完成后点击Restart按钮重启ComfyUI即可。
- 手动安装
  - 进入ComfyUI的custom_nodes目录，执行git clone https://github.com/wildminder/comfyui-vibevoice.git。
  - 进入comfyui-vibevoice目录，执行pip install -r requirements.txt安装依赖。

四、需要的模型及下载地址

需要Vibe Voice模型，可从Hugging Face下载：

五、插件包含的节点名称

Vibe Voice Load Text From File：从文件加载文本内容，支持.txt格式，输出用于语音合成的文本字符串。
Vibe Voice Single Speaker：使用单一声音从文本生成语音，可输入文本或连接加载文本节点，支持可选的声音克隆功能。
Vibe Voice Multi Speaker：支持最多4个不同角色的对话合成。
Free Memory：用于手动管理内存，在复杂工作流中可进行内存释放操作。

六、关键插件参数用途和推荐值

Vibe Voice Single Speaker节点
- model：用于选择语音合成模型。推荐在追求速度且对质量要求不是极高时使用Vibe Voice - 1.5B；需要高质量语音且设备性能足够时使用Vibe Voice - large；希望平衡质量和内存占用时使用Vibe Voice - large - quant - 4bit。
- attention_type：可选择auto、eager、sdpa、flash_attention_2等注意力机制。推荐一般情况下使用auto，若追求极致性能可根据设备和场景测试其他选项。
- diffusion_steps：用于调整质量与速度的权衡，默认值为20。如果对语音质量要求较高，可适当增大该值到30-50；若需要快速生成语音，可减小到10-15。
Vibe Voice Multi Speaker节点
- speaker1_voice、speaker2_voice、speaker3_voice、speaker4_voice：用于输入每个角色的参考音频，以实现声音克隆。可选择清晰、能代表角色声音特点的音频文件。
- cfg_scale：控制生成语音的风格和多样性，值越大，生成的语音越偏离原始文本的语义，风格越多样，但可能会出现不合理的内容。推荐值在1.0-3.0之间。
- temperature：控制生成语音的随机性，值越高，生成的语音越随机、多样；值越低，生成的语音越接近模型的平均值，越稳定。推荐值在0.5-1.5之间。

七、节点工作流参考案例

八、总结

ComfyUI-VibeVoice插件为ComfyUI用户提供了强大的语音合成功能，通过简单的操作和丰富的参数调节，能够满足多种语音合成需求。无论是多角色对话、声音克隆还是对语音效果的精细调整，都能轻松实现。它降低了语音合成的技术门槛，提高了创作效率，为广播剧、播客、配音等多个领域的内容创作带来了更多的便利和可能性，是一款非常实用的ComfyUI插件。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla