Wan系列模型解析--S2V
当前SOTA的音频驱动角色动画方法在语音和歌唱场景表现较好,但在影视制作所需的精细角色互动、真实肢体动作及动态镜头等复杂元素上存在不足;为此,研究团队提出基于Wan构建的音频驱动模型Wan-S2V,其在影视场景中的表现力和保真度显著优于现有方法,通过与Hunyuan-Avatar、Omnihuman等前沿模型的大量实验对比,结果一致证明该模型性能更优,同时还探索了其在长视频生成和精准视频唇同步编辑
论文链接:https://arxiv.org/abs/2508.18621
文章目录
简介
当前SOTA的音频驱动角色动画方法在语音和歌唱场景表现较好,但在影视制作所需的精细角色互动、真实肢体动作及动态镜头等复杂元素上存在不足;为此,研究团队提出基于Wan构建的音频驱动模型Wan-S2V,其在影视场景中的表现力和保真度显著优于现有方法,通过与Hunyuan-Avatar、Omnihuman等前沿模型的大量实验对比,结果一致证明该模型性能更优,同时还探索了其在长视频生成和精准视频唇同步编辑中的应用。
为提升模型的稳定性与性能,采用多阶段训练方案:首先对音频处理模块进行预训练,接着在完整数据集上开展全面预训练,最后基于高质量数据进行微调。通过这些系统性策略的协同作用,成功研发出一个稳健且高效的音频驱动人体视频生成模型。
长视频生成对于影视场景下的视频创作至关重要,但该任务在维持细节稳定性、场景一致性乃至动作连贯性方面面临挑战。Emo提出的音频驱动方法尝试通过 “动作帧(Motion Frames)” 维持多片段间的一致性,然而过多的动作帧会大幅增加计算复杂度。这导致实际使用中动作帧数量相对有限,难以在影视场景下维持长视频的稳定性。为解决这一问题,借鉴FramePack的思路,提出一种新方法:通过在不同时段采用不同的令牌压缩率(token compression ratios),有效减少动作帧的令牌数量。这一设计能够容纳更多动作帧,进而实现更稳定的长视频生成。
在训练模型时,基于公开可用的视频数据集和自主收集的视频数据,构建了一个视频clips的数据集。该综合数据集既涵盖以人类语音和歌唱为核心的单人场景视频,也包含来自影视剧的复杂角色视频。主要贡献如下:
- 将音频驱动生成拓展至复杂场景:突破仅聚焦talking heads这一局限,能够在多样且具有挑战性的场景中生成自然且富有表现力的角色动作,同时融合了文本引导的全局动作控制与音频驱动的细粒度局部动作;
- 长视频稳定性与高效模型变体:通过优化的动作帧token缩减技术,解决长视频生成过程中的相关挑战
- 全面的训练数据:利用大规模、多样化的数据集来训练模型,并通过大量实验验证了模型的有效性
数据处理管道
数据收集
人为驱动的叙事是视频内容的核心要素。目标是筛选出包含一名或多名人类角色且角色正在进行特定活动的视频。具体而言,采用了双管齐下的策略:
- 大规模数据集的自动化筛选:从Openhumanvid、Koala-36M等开源视频数据集中收集视频,随后开展初步粗筛选流程——通过检测视频描述文本中是否包含与人类相关的内容来筛选视频。值得注意的是,这些数据集提供的描述文本本质上粒度较粗,往往无法捕捉到角色所进行的精细动态活动,例如复杂手势、互动行为或特定场景下的动作。为解决这一局限,开发了一套专注于人类动作模式的专用描述生成流程;
- 高质量样本的人工筛选:作为上述方法的补充,从公开可获取的来源中,人工挑选包含人类有目的的复杂活动,如说话、唱歌、跳舞的视频。这种双重方法最终形成了一个包含数百万以人类为核心的视频样本的初始视频库,为数据集奠定了基础。
姿态跟踪与细粒度筛选
在初始的以人类为核心的视频库中,通过VitPose模型追踪每个角色的2D姿态,并将其转换为DWPose 格式 。这些姿态信息承担两项关键功能:(1)作为多模态控制信号:所追踪的姿态会作为可选多模态控制信号,整合到以人为核心的视频生成模型中,从而实现与人类动作在时间维度上的精准对齐。(2)用于数据集优化:姿态数据还被进一步用于执行细粒度筛选流程。具体而言,剔除角色在时间维度或空间维度上仅占极小比例的视频;此外,为确保模型能从给定音频信号中学习到音频驱动的面部表情,仅保留了视频序列全程包含清晰且稳定人类面部的样本。除基于姿态的筛选外,还采用预训练视频质量评估模型,对视频的动作幅度、美学表现力及视觉清晰度进行评估,并依据这些量化指标对视频进行筛选,以保障数据质量。同时,为解决音视频对齐问题,借助Light-ASD模型检测并排除两类视频:(1)音频与当前说话人不同步的视频;(2)场景中无明确说话人的视频。
视频质量
为从多维度全面评估视频质量,采用以下五项指标:
- 清晰度评估:通过Dover指标量化视频清晰度,该指标可衡量视觉内容的感知锐度;
- 运动稳定性分析:为评估时间连贯性,借助 UniMatch框架预测光流并计算运动得分。这一过程有助于识别并筛选出主体/背景运动过度、可能影响视觉质量的视频;
- 面部/手部锐度验证:对视频帧中的人类面部与手部区域专门应用拉普拉斯算子,通过该技术可检测并排除面部特征或手部区域模糊的视频;
- 美学质量评估:整合改进后的美学预测模型,依据人类审美偏好评估视频的视觉吸引力,确保输出视频符合主观质量标准;
- 字幕遮挡检测:采用基于OCR的检测器,识别并排除视频中字幕可能遮挡面部或手部的情况。
稠密视频caption
详细且准确的视频描述有助于生成模型与输入提示词实现对齐,采用QwenVL2.5-72B 模型为视频生成描述文本,并指导该模型从以下关键维度进行详细描述:
- 镜头角度,如正面镜头、俯拍镜头、低角度镜头、全景镜头、中景镜头及特写镜头;
- 人物外貌特征(如服饰、配饰)与动作,且动作需拆解为主体的具体动作细节;
- 背景环境主要特征,包括建筑风格、色彩搭配、绿植景观等。
同时,要求模型避免主观评价与情感解读,这类内容对于生成符合预期的视频而言通常并无实质意义。
模型架构
给定一张参考图像、一段输入音频以及一条描述视频内容的提示词,能够生成与音频同步的视频,同时保留参考图像中的内容,并非从该图像开始生成。如图2所示,以多帧噪声latent为输入,在每个时间步尝试将这些噪声去噪,最终得到连续的视频帧。
训练阶段,RGB目标帧 X ∈ R F × H × W × 3 X \in \mathbb{R}^{F×H×W×3} X∈RF×H×W×3通过3D VAE编码为潜变量表示 x 0 ∈ R f × h × w × c x_0 \in \mathbb{R}^{f×h×w×c} x0∈Rf×h×w×c;随后分配一个连续时间步 t ∈ [ 0 , 1 ] t \in [0,1] t∈[0,1],并依据Flow Matching,向 x 0 x_0 x0中添加噪声 ϵ \epsilon ϵ以得到带噪潜变量 x t x_t xt,公式如下: x t = t ϵ + ( 1 − t ) x 0 x_t=tϵ+(1−t)x_0 xt=tϵ+(1−t)x0。将 x t x_t xt输入模型后,模型的目标是预测速度 d t d x = ϵ − x 0 \frac{dt}{dx} = \epsilon −x_0 dxdt=ϵ−x0。推理阶段,模型在参考帧、动作帧、音频输入及提示词的条件约束下,将带噪输入 x t x_t xt恢复为原始潜变量 x 0 x_0 x0。
参考图像、目标帧以及遵循Emo方法得到的动作帧,会被输入至3D VAE中,进行视频的空间与时间维度下采样,最终得到各帧的潜变量表示。随后,所有潜变量帧会经过分块与扁平化处理,再拼接成一个视觉令牌序列。其中,动作帧为可选输入,它提供了历史信息条件,能让生成的视频片段保持连贯性。为生成具有长期一致性的视频帧,需获取更多历史信息是必须的;但直接对动作潜变量令牌进行扁平化处理,会增加计算负荷。因此,借助FramePack中提出的帧打包模块/Frame Pack module,对动作潜变量进一步压缩,该模块对较早的帧采用更高的压缩率。
如图3所示,原始音频波形首先通过Wav2Vec模型进行编码。为全面捕捉音频特征,采用Emo提出的加权平均层,该层通过可学习权重融合不同层级的特征。这种方法能有效整合Wav2Vec提取的浅层节奏与情感线索,以及深层词汇内容特征,从而增强与歌唱、富有表现力的语音等复杂音频信号的同步性。随后,生成的逐帧音频特征会通过多个因果一维卷积模块,沿时间维度进行压缩。此过程最终生成第 i i i个潜变量帧对应的音频特征 a i ∈ R f × t × c a_i \in \mathbb{R}^{f×t×c} ai∈Rf×t×c,该特征与视频潜变量帧在时间维度上对齐,其中 t t t代表每个潜变量帧对应的音频tokens数量。
潜变量音频特征 a a a会被传入每个音频模块/Audio Block,在此模块中,带噪潜变量令牌 x t ∈ R ( f ′ × h × w ) × c x_t \in \mathbb{R}^{(f'×h×w)×c} xt∈R(f′×h×w)×c会沿时间维度被分割为多个片段 ∑ i f ′ x t i ∈ R ( h × w ) × c \sum_{i}^{f'} x_{ti} \in \mathbb{R}^{(h×w)×c} ∑if′xti∈R(h×w)×c。为降低计算开销, a i a_i ai与 x t i x_{ti} xti之间进行注意力计算,而非在视觉令牌与音频令牌之间执行完整的三维注意力计算。这种方法可确保音频特征与视觉令牌实现自然同步。
实现
在训练音视频生成模型时,采用了融合FSDP与上下文并行的混合并行训练方案,从而实现大规模、全参数的模型训练。为适配不同分辨率需求,支持对变长视频数据进行训练。该模型基于预训练的Wan模型构建,设计了三阶段训练流程,具体包括:音频编码器训练、语音视频训练、影视+语音视频训练,最后进行高质量的SFT阶段训练。
为高效训练模型,采用了一种混合并行训练策略。该策略将完全分片数据并行/Fully Sharded Data Parallelism,FSDP与上下文并行/Context Parallelism相结合。起初,借助FSDP技术,将模型参数在单个节点内的8张GPU卡之间进行分片处理,从而实现了对Wan-S2V-14B模型的训练,且每张GPU的内存占用为80GB。
随后,为实现并行计算,借鉴Usp的方法,设计并实现了融合环形注意力/RingAttention与Ulysses的上下文并行方案。该集成方案在单个节点的8张GPU上运行,能够实现近线性加速,将单次训练迭代时间从约100秒大幅缩短至约12秒。这一稳定的训练架构最终支持对参数量超16B的模型进行训练,涵盖音频编码器与交叉注意力组件;同时,依托8张GPU,还可完成分辨率为1024×768、时长达48帧的高分辨率视频训练任务。
为适配多样化的输出分辨率并优化训练过程,采用变长分辨率训练方法。该方法将patchify操作后确定的token数量作为核心指标,并设定了最大允许tokens数量阈值 M M M。对于tokens数量超过 M M M的视频,会通过调整分辨率大小或裁剪处理,将其tokens数量降至 M M M或以下;而tokens数量已低 M M M的视频,则无需任何修改,直接用于模型训练。
从OpenHumanViD数据集中精心筛选数据,并将其与自行构建的内部talking head数据集相整合,最终形成了完整的训练集。基于Wan-14B模型构建了音频驱动的人类视频生成模型,并将其命名为Wan-S2V-14B。在与现有最先进的音频驱动视频生成模型进行全面对比时,无论是定量指标还是视觉结果,均一致表明:Wan-S2V-14B在生成内容的表现力与真实感方面,均优于当前各类方法。
更多推荐
所有评论(0)