一、应用介绍

ComfyUI-VibeVoice是一款将微软Vibe Voice集成到ComfyUI中的插件,具有以下丰富的应用场景:

  • 广播剧与有声读物制作:能够方便地实现多角色对话的语音合成,为不同角色克隆独特的声音,使广播剧和有声读物中的角色更加鲜活,极大提升内容的吸引力与沉浸感。
  • 播客创作:创作者可以轻松创建具有专业品质的播客内容,通过克隆不同风格的声音来模拟嘉宾对话,还能灵活调整语音风格与节奏,让播客更具个性和魅力。
  • 语音助手开发:可用于开发具有个性化语音的语音助手,通过声音克隆技术为语音助手赋予独特的声音,使其更贴合用户需求与使用场景。
  • 影视配音与动画配音:为影视和动画中的角色进行配音,能够快速生成符合角色特点的语音,提高配音效率,丰富配音的风格和表现形式。

二、与传统方法对比

对比项目 传统方法 ComfyUI-VibeVoice
操作便捷性 通常需要使用专业的语音合成软件,操作复杂,学习成本高 基于ComfyUI的图形化界面,以节点连接和参数设置方式操作,上手容易
多角色处理 多角色语音合成需要分别处理每个角色的语音,再进行后期混音等操作,过程繁琐 支持最多4个角色的对话合成,可轻松实现多角色的语音交互
声音克隆难度 声音克隆往往需要大量的语音数据和专业的训练工具,操作难度大 支持零-shot声音克隆,只需提供少量音频样本即可快速克隆声音
灵活性 参数调整通常在软件界面中进行,不够直观和灵活,对不同场景的适应性较差 提供了丰富的可调节参数,如注意力机制、扩散步数等,可根据需求精细调整语音合成效果

三、插件下载地址和安装方法

  • 下载地址
    • GitHub:https://github.com/wildminder/comfyui-vibevoice.git
    • ComfyUI Manager:可在ComfyUI的Manager中搜索“ComfyUI-VibeVoice”进行下载
  • 安装方法
    • 使用ComfyUI Manager安装
      • 点击ComfyUI主菜单中的Manager按钮。
      • 选择Custom Nodes Manager按钮。
      • 在搜索栏中输入“ComfyUI-VibeVoice”,找到插件后点击安装。
      • 安装完成后点击Restart按钮重启ComfyUI即可。
    • 手动安装
      • 进入ComfyUI的custom_nodes目录,执行git clone https://github.com/wildminder/comfyui-vibevoice.git
      • 进入comfyui-vibevoice目录,执行pip install -r requirements.txt安装依赖。

四、需要的模型及下载地址

需要Vibe Voice模型,可从Hugging Face下载:

五、插件包含的节点名称

  • Vibe Voice Load Text From File:从文件加载文本内容,支持.txt格式,输出用于语音合成的文本字符串。
  • Vibe Voice Single Speaker:使用单一声音从文本生成语音,可输入文本或连接加载文本节点,支持可选的声音克隆功能。
  • Vibe Voice Multi Speaker:支持最多4个不同角色的对话合成。
  • Free Memory:用于手动管理内存,在复杂工作流中可进行内存释放操作。

六、关键插件参数用途和推荐值

  • Vibe Voice Single Speaker节点
    • model:用于选择语音合成模型。推荐在追求速度且对质量要求不是极高时使用Vibe Voice - 1.5B;需要高质量语音且设备性能足够时使用Vibe Voice - large;希望平衡质量和内存占用时使用Vibe Voice - large - quant - 4bit。
    • attention_type:可选择auto、eager、sdpa、flash_attention_2等注意力机制。推荐一般情况下使用auto,若追求极致性能可根据设备和场景测试其他选项。
    • diffusion_steps:用于调整质量与速度的权衡,默认值为20。如果对语音质量要求较高,可适当增大该值到30-50;若需要快速生成语音,可减小到10-15。
  • Vibe Voice Multi Speaker节点
    • speaker1_voice、speaker2_voice、speaker3_voice、speaker4_voice:用于输入每个角色的参考音频,以实现声音克隆。可选择清晰、能代表角色声音特点的音频文件。
    • cfg_scale:控制生成语音的风格和多样性,值越大,生成的语音越偏离原始文本的语义,风格越多样,但可能会出现不合理的内容。推荐值在1.0-3.0之间。
    • temperature:控制生成语音的随机性,值越高,生成的语音越随机、多样;值越低,生成的语音越接近模型的平均值,越稳定。推荐值在0.5-1.5之间。

七、节点工作流参考案例

Vibe Voice Load Text From File
Vibe Voice Multi Speaker
Output Audio

八、总结

ComfyUI-VibeVoice插件为ComfyUI用户提供了强大的语音合成功能,通过简单的操作和丰富的参数调节,能够满足多种语音合成需求。无论是多角色对话、声音克隆还是对语音效果的精细调整,都能轻松实现。它降低了语音合成的技术门槛,提高了创作效率,为广播剧、播客、配音等多个领域的内容创作带来了更多的便利和可能性,是一款非常实用的ComfyUI插件。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐