一、引言

Phantom 是字节跳动推出的一种统一视频生成框架,能够处理单主体和多主体参考的视频生成任务。该框架建立在现有的文生视频和图生视频架构基础上,通过重新设计联合文本 - 图像注入模型,利用文本 - 图像 - 视频三元组数据实现跨模态对齐。同时,Phantom 框架强调在人类生成中保持主体一致性,并增强身份保持的视频生成能力。

二、更新内容

  1. 论文更新 :2025 年 4 月 10 日,Phantom 论文的完整版本更新,包含了对模型架构和数据集管道更详细的描述。

  2. 模型发布 :2025 年 4 月 20 日,Phantom 框架被适配到 Wan2.1 视频生成模型中,发布了 Phantom-Wan 的推理代码和检查点,包括 Phantom-Wan 1.3B 的推理代码和检查点、Phantom-Wan 14B 的检查点以及 Phantom-Wan 的训练代码。

三、环境搭建

  1. 克隆仓库 :使用命令 git clone https://github.com/Phantom-video/Phantom.git 克隆代码仓库。

  2. 安装依赖 :进入 Phantom 文件夹,确保 PyTorch 版本不低于 2.4.0,然后执行 pip install -r requirements.txt 安装项目所需依赖。

四、模型下载与推理

  1. 模型下载 :先使用 huggingface-cli 下载 Wan2.1-1.3B 模型,命令为 huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B,再下载 Phantom-Wan-1.3B 模型。

  2. 推理方法

    • 单 GPU 推理 :运行 python generate.py --task s2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --phantom_c

    • 多 GPU 推理 :安装 xfuser(版本需 >= 0.4.1),然后执行 torchrun --nproc_per_node=8 generate.py --task s2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1,使用 FSDP + xDiT USP 实现多 GPU 推理。

五、使用技巧与注意事项

  1. 参考图片设置 :通过改变 --ref_image 参数可以实现单参考主体到视频生成或多参考主体到视频生成,但参考图片数量应控制在 4 张以内。

  2. 提示词撰写 :为了获得最佳生成效果,建议在撰写 --prompt 时,尽可能准确地描述参考图片的视觉内容。例如,若参考图片为 “examples/ref1.png”,则可以描述为 “a toy camera in yellow and red with blue buttons”。

  3. 结果优化 :如果生成的视频不理想,最直接的解决办法是尝试更改 --base_seed 并修改 --prompt 中的描述。

六、实验结果

Phantom 框架在身份保持视频生成方面表现出色。在单参考主体到视频生成和多参考主体到视频生成任务中,均能较好地保持主体身份特征,同时生成具有较高质量和连贯性的视频内容。

七、致谢

论文作者对 SEED 团队表示感谢,特别感谢 Lu Jiang、Haoyuan Guo、Zhibei Ma 和 Sen Wang 在模型和数据方面的帮助,同时也对 Siying Chen、Qingyang Li 和 Wei Han 在评估过程中的协助表示感激。

八、核心技术汇总

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐