MultiTalk:好玩的多人对话视频生成AI框架
MultiTalk 是由中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。它基于多声道音频输入、人物参考图像及文本提示,能够实现多人对话场景中同步唇动、视线交互和动态人物表现,是真正为多角色对话场景设计的创新性视频生成框架。
MultiTalk 是由中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。它能够根据多声道音频输入、参考图像和文本提示,生成包含人物互动且口型与音频一致的视频。该框架的核心创新在于其独特的 Label Rotary Position Embedding (L-RoPE) 方法,能够有效解决多声道音频与人物绑定的问题。
核心功能
-
音频驱动的多人视频生成:MultiTalk 可以同时处理多个音频流,为每个角色独立绑定口型视频输出,实现多人同步对话。
-
解决音频与人物绑定问题:通过 L-RoPE 方法,利用旋转嵌入技术将音频流与角色绑定,避免音源与人物错配。
-
强大的指令跟随能力:基于部分参数训练和多任务训练策略,模型能够根据文本提示生成符合要求的视频内容。
-
语言多样性支持:某些版本扩展到多语言 3D 说话头,支持包括中文、英文、韩语在内的 20 种语言。
技术原理
-
音频驱动的视频生成框架:MultiTalk 基于 Diffusion-in-Transformer (DiT) 的视频扩散模型构建基础架构,结合 3D Variational Autoencoder (VAE) 对视频的时空维度进行压缩,高效地生成视频内容。
-
音频特征提取:通过 Wav2Vec 提取音频特征,并将其与视频内容相结合,确保口型与声音同步。
-
Label Rotary Position Embedding (L-RoPE):为视频中的每个人物和背景分配不同的标签范围,基于旋转位置嵌入技术,将标签信息融入到音频和视频的特征中,确保音频与人物的正确绑定。
-
自适应人物定位:使用参考图像和生成视频的自注意力图,自动识别每个人物的位置,实现精准的音频绑定。
支持平台
目前官方尚未明确说明其支持的具体操作系统,但根据其开源信息,推测在具备 GPU 加速能力的常见操作系统(如 Linux)上可以运行。
团队介绍
MultiTalk 是由中山大学深圳校区、美团和香港科技大学联合推出的,三方在相关领域具有深厚的技术积累和科研实力,汇聚了众多专业人士,共同打造了这一创新性的视频生成框架。
业务场景
-
虚拟采访与多人访谈:实现多角色对话同步,为远程访谈或采访创建真实感视频。
-
在线教育与多讲师培训:多讲师视频协作时,保证口型同步增强真实感。
-
卡通与动画制作:多角色卡通对白可自动同步,提高素材创作效率。
-
多语言播报场景:支持多个语言音轨,使多语言主播视频制作更流畅。
-
品牌推广与营销内容:多角色剧情视频可自动生成,提升广告表现力。
更多推荐
所有评论(0)