想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

视频号(直播分享):sphuYAMr0pGTk27  抖音号:44185842659

生成逼真、可控的视频,具体要求包括人物、背景、动作、语态和口型同步等,一直是视频生成领域的重大挑战。而现有的HCVG(Human-Centric Video Generation,以人为主题的视频生成)方法,因为同时协调文字、图片和音频这三大模态很困难,往往容易在三个方面翻车:

  • 要么文字描述没被好好利用,导致视频跟要求脱节;

  • 要么参考图片的人物身份、外观没保持住,视频里的人“变脸”或者“变样子”;

  • 要么音频和口型对不上,人物说话的样子很尴尬。

更糟糕的是,训练一个能处理这三种模态的模型,需要大量精准对齐的三元组数据(文字+图片+音频),而这恰恰是稀缺资源。

清华大学和字节跳动智能创作实验室的研究人员提出了一个叫HuMo的框架,专门解决这些问题。它的核心亮点在于:

  1. 构建高质量的多模态数据集,解决数据稀缺问题;

  2. 提出一种渐进式的多模态训练范式,平衡文字、图片、音频的协作;

  3. 在推理阶段,用时间自适应的分类器自由引导(CFG)策略,动态调整各模态的控制权重。

论文链接:https://arxiv.org/pdf/2509.08519

项目链接:https://github.com/phantom-video/humo


传统方法vs HuMo,到底差在哪?

图2非常直观地展示了传统方法和HuMo的差异。传统方法主要有两种思路:

  • 先用文字生成一张“起始图片”(比如OmniHuman-1),再基于这张图生成视频:但这样生成的视频,很容易受起始图片限制,后续哪怕文字要求改掉某些细节(比如加个玩具),也很难实现;

  • 利用参考图片生成视频(比如Phantom和HunyuanCustom):虽然能保证人物外观一致,但它们通常不支持音频输入,无法控制人物该说什么,或者口型和音频完全对不上。

而HuMo呢?它完全不受这些限制,既能根据文字灵活调整细节,又能保证参考图片中的人物身份不变,还能让口型完美同步音频。图2里对比了几种方法生成的效果,传统方法在细节和连贯性上明显不如HuMo。


数据不会骗人,HuMo到底多强?

再来看实验结果。论文中提供了两组表格(表1和表2),分别对应“保留主体任务”和“音画同步任务”的定量评估。

表1:保留主体任务评估

表1从视频质量(AES、IQA)、文本对齐(TVA)、主体一致性(ID-Cur、ID-Glink)等多方面对比了几种方法。结果很明显:

  • 在保留参考图片中人物身份的能力上,HuMo表现最佳,尤其是在多人场景中(比如图5中的四人同时进入寺庙的案例),它能精准保持每个人物的外观,而其他方法容易丢人或者让身份“串戏”;

  • 在文本跟随能力上,HuMo丝毫不逊色,它能根据文字描述生成高度符合要求的细节,比如让人物做出特定动作或者穿特定服装。

表2:音画同步任务评估

表2则聚焦于音画同步能力,还加入了其他支持音频输入的方法(比如Hallo3、FantasyTalking)。结果显示:

  • 即使对比那些依赖完整“起始帧”的方法(比如OmniHuman-1),HuMo依然能凭借参考图片生成高质量的音画同步视频;

  • 它在文本跟随和视觉质量上的表现也尤为突出,比如成功渲染出文字描述中的“银色吉他”“金色灯光”等细节。


时间自适应CFG:推理时的“秘密武器”

论文还提到一个关键点,就是推理时采用的时间自适应CFG策略。简单来说,就是让模型在不同生成阶段,自动调整对文字、图片、音频的依赖程度:

  • 一开始,优先听从文字描述,搭建起视频的大致框架(比如场景布局、人物位置);

  • 后面的生成阶段,则更多依赖图片和音频,专注于细节优化(比如让口型更贴合音频、让人物外观更符合参考图片)。

这种方法避免了传统静态权重分配的弊端,生成的视频细节更丰富、逻辑更连贯。论文里的图4展示了这种动态调整的效果,有兴趣可以去论文里细品。


HuMo的野心不止是“生成视频”

HuMo的意义不止是生成一段视频这么简单。它其实在探索一个更深层次的问题:如何让大模型真正理解并融合多种模态的信息,完成复杂的创作任务?

它的优势在于:

  • 不再需要一个“完美的起始图片”来限制生成;

  • 文字、图片、音频三者协作无压力,细节和连贯性都在线;

  • 推理时还能灵活调整生成策略,让视频更贴合用户需求。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐