用文字、图片和音频“拼”出一个视频！HuMo教你如何做到

字节跳动联手清华大学开源多模态视频生成神器——HuMo！它凭一张图、一段文字、一段音频，就能轻松生成电影级效果的说话视频，彻底解决了传统技术中人物身份不一致、声音画面不同步的老大难问题

人工智能chatGPT培训咨询讲师叶梓

917人浏览 · 2025-09-17 14:00:00

人工智能chatGPT培训咨询讲师叶梓 · 2025-09-17 14:00:00 发布

想要掌握如何将大模型的力量发挥到极致吗？叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

视频号（直播分享）：sphuYAMr0pGTk27 抖音号：44185842659

生成逼真、可控的视频，具体要求包括人物、背景、动作、语态和口型同步等，一直是视频生成领域的重大挑战。而现有的HCVG（Human-Centric Video Generation，以人为主题的视频生成）方法，因为同时协调文字、图片和音频这三大模态很困难，往往容易在三个方面翻车：

要么文字描述没被好好利用，导致视频跟要求脱节；
要么参考图片的人物身份、外观没保持住，视频里的人“变脸”或者“变样子”；
要么音频和口型对不上，人物说话的样子很尴尬。

更糟糕的是，训练一个能处理这三种模态的模型，需要大量精准对齐的三元组数据（文字+图片+音频），而这恰恰是稀缺资源。

清华大学和字节跳动智能创作实验室的研究人员提出了一个叫HuMo的框架，专门解决这些问题。它的核心亮点在于：

构建高质量的多模态数据集，解决数据稀缺问题；
提出一种渐进式的多模态训练范式，平衡文字、图片、音频的协作；
在推理阶段，用时间自适应的分类器自由引导（CFG）策略，动态调整各模态的控制权重。

论文链接：https://arxiv.org/pdf/2509.08519

项目链接：https://github.com/phantom-video/humo

传统方法vs HuMo，到底差在哪？

图2非常直观地展示了传统方法和HuMo的差异。传统方法主要有两种思路：

先用文字生成一张“起始图片”（比如OmniHuman-1），再基于这张图生成视频：但这样生成的视频，很容易受起始图片限制，后续哪怕文字要求改掉某些细节（比如加个玩具），也很难实现；
利用参考图片生成视频（比如Phantom和HunyuanCustom）：虽然能保证人物外观一致，但它们通常不支持音频输入，无法控制人物该说什么，或者口型和音频完全对不上。

而HuMo呢？它完全不受这些限制，既能根据文字灵活调整细节，又能保证参考图片中的人物身份不变，还能让口型完美同步音频。图2里对比了几种方法生成的效果，传统方法在细节和连贯性上明显不如HuMo。

数据不会骗人，HuMo到底多强？

再来看实验结果。论文中提供了两组表格（表1和表2），分别对应“保留主体任务”和“音画同步任务”的定量评估。

表1：保留主体任务评估

表1从视频质量（AES、IQA）、文本对齐（TVA）、主体一致性（ID-Cur、ID-Glink）等多方面对比了几种方法。结果很明显：

在保留参考图片中人物身份的能力上，HuMo表现最佳，尤其是在多人场景中（比如图5中的四人同时进入寺庙的案例），它能精准保持每个人物的外观，而其他方法容易丢人或者让身份“串戏”；
在文本跟随能力上，HuMo丝毫不逊色，它能根据文字描述生成高度符合要求的细节，比如让人物做出特定动作或者穿特定服装。

表2：音画同步任务评估

表2则聚焦于音画同步能力，还加入了其他支持音频输入的方法（比如Hallo3、FantasyTalking）。结果显示：

即使对比那些依赖完整“起始帧”的方法（比如OmniHuman-1），HuMo依然能凭借参考图片生成高质量的音画同步视频；
它在文本跟随和视觉质量上的表现也尤为突出，比如成功渲染出文字描述中的“银色吉他”“金色灯光”等细节。

时间自适应CFG：推理时的“秘密武器”

论文还提到一个关键点，就是推理时采用的时间自适应CFG策略。简单来说，就是让模型在不同生成阶段，自动调整对文字、图片、音频的依赖程度：

一开始，优先听从文字描述，搭建起视频的大致框架（比如场景布局、人物位置）；
后面的生成阶段，则更多依赖图片和音频，专注于细节优化（比如让口型更贴合音频、让人物外观更符合参考图片）。

这种方法避免了传统静态权重分配的弊端，生成的视频细节更丰富、逻辑更连贯。论文里的图4展示了这种动态调整的效果，有兴趣可以去论文里细品。

HuMo的野心不止是“生成视频”

HuMo的意义不止是生成一段视频这么简单。它其实在探索一个更深层次的问题：如何让大模型真正理解并融合多种模态的信息，完成复杂的创作任务？

它的优势在于：

不再需要一个“完美的起始图片”来限制生成；
文字、图片、音频三者协作无压力，细节和连贯性都在线；
推理时还能灵活调整生成策略，让视频更贴合用户需求。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla