MultiTalk：好玩的多人对话视频生成AI框架

MultiTalk 是由中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。它基于多声道音频输入、人物参考图像及文本提示，能够实现多人对话场景中同步唇动、视线交互和动态人物表现，是真正为多角色对话场景设计的创新性视频生成框架。

程序之雅

909人浏览 · 2025-06-11 15:44:21

程序之雅 · 2025-06-11 15:44:21 发布

MultiTalk 是由中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。它能够根据多声道音频输入、参考图像和文本提示，生成包含人物互动且口型与音频一致的视频。该框架的核心创新在于其独特的 Label Rotary Position Embedding (L-RoPE) 方法，能够有效解决多声道音频与人物绑定的问题。

核心功能

音频驱动的多人视频生成：MultiTalk 可以同时处理多个音频流，为每个角色独立绑定口型视频输出，实现多人同步对话。
解决音频与人物绑定问题：通过 L-RoPE 方法，利用旋转嵌入技术将音频流与角色绑定，避免音源与人物错配。
强大的指令跟随能力：基于部分参数训练和多任务训练策略，模型能够根据文本提示生成符合要求的视频内容。
语言多样性支持：某些版本扩展到多语言 3D 说话头，支持包括中文、英文、韩语在内的 20 种语言。

技术原理

音频驱动的视频生成框架：MultiTalk 基于 Diffusion-in-Transformer (DiT) 的视频扩散模型构建基础架构，结合 3D Variational Autoencoder (VAE) 对视频的时空维度进行压缩，高效地生成视频内容。
音频特征提取：通过 Wav2Vec 提取音频特征，并将其与视频内容相结合，确保口型与声音同步。
Label Rotary Position Embedding (L-RoPE)：为视频中的每个人物和背景分配不同的标签范围，基于旋转位置嵌入技术，将标签信息融入到音频和视频的特征中，确保音频与人物的正确绑定。
自适应人物定位：使用参考图像和生成视频的自注意力图，自动识别每个人物的位置，实现精准的音频绑定。

支持平台

目前官方尚未明确说明其支持的具体操作系统，但根据其开源信息，推测在具备 GPU 加速能力的常见操作系统（如 Linux）上可以运行。

团队介绍

MultiTalk 是由中山大学深圳校区、美团和香港科技大学联合推出的，三方在相关领域具有深厚的技术积累和科研实力，汇聚了众多专业人士，共同打造了这一创新性的视频生成框架。

业务场景

虚拟采访与多人访谈：实现多角色对话同步，为远程访谈或采访创建真实感视频。
在线教育与多讲师培训：多讲师视频协作时，保证口型同步增强真实感。
卡通与动画制作：多角色卡通对白可自动同步，提高素材创作效率。
多语言播报场景：支持多个语言音轨，使多语言主播视频制作更流畅。
品牌推广与营销内容：多角色剧情视频可自动生成，提升广告表现力。

资源：https://wendao-ai.com/multitalk/

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla