字节开源一致性主体视频生成模型：Phantom

Phantom 是字节跳动推出的一种统一视频生成框架，能够处理单主体和多主体参考的视频生成任务。：2025 年 4 月 20 日，Phantom 框架被适配到 Wan2.1 视频生成模型中，发布了 Phantom-Wan 的推理代码和检查点，包括 Phantom-Wan 1.3B 的推理代码和检查点、Phantom-Wan 14B 的检查点以及 Phantom-Wan 的训练代码。在单参考主体到视

Panesle

1647人浏览 · 2025-04-25 10:39:39

Panesle · 2025-04-25 10:39:39 发布

一、引言

Phantom 是字节跳动推出的一种统一视频生成框架，能够处理单主体和多主体参考的视频生成任务。该框架建立在现有的文生视频和图生视频架构基础上，通过重新设计联合文本 - 图像注入模型，利用文本 - 图像 - 视频三元组数据实现跨模态对齐。同时，Phantom 框架强调在人类生成中保持主体一致性，并增强身份保持的视频生成能力。

二、更新内容

论文更新 ：2025 年 4 月 10 日，Phantom 论文的完整版本更新，包含了对模型架构和数据集管道更详细的描述。
模型发布 ：2025 年 4 月 20 日，Phantom 框架被适配到 Wan2.1 视频生成模型中，发布了 Phantom-Wan 的推理代码和检查点，包括 Phantom-Wan 1.3B 的推理代码和检查点、Phantom-Wan 14B 的检查点以及 Phantom-Wan 的训练代码。

三、环境搭建

克隆仓库 ：使用命令 git clone https://github.com/Phantom-video/Phantom.git 克隆代码仓库。
安装依赖 ：进入 Phantom 文件夹，确保 PyTorch 版本不低于 2.4.0，然后执行 pip install -r requirements.txt 安装项目所需依赖。

四、模型下载与推理

模型下载 ：先使用 huggingface-cli 下载 Wan2.1-1.3B 模型，命令为 huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B，再下载 Phantom-Wan-1.3B 模型。
推理方法 ：
- 单 GPU 推理 ：运行 python generate.py --task s2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --phantom_c。
- 多 GPU 推理 ：安装 xfuser（版本需 >= 0.4.1），然后执行 torchrun --nproc_per_node=8 generate.py --task s2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1，使用 FSDP + xDiT USP 实现多 GPU 推理。

五、使用技巧与注意事项

参考图片设置 ：通过改变 --ref_image 参数可以实现单参考主体到视频生成或多参考主体到视频生成，但参考图片数量应控制在 4 张以内。
提示词撰写 ：为了获得最佳生成效果，建议在撰写 --prompt 时，尽可能准确地描述参考图片的视觉内容。例如，若参考图片为 “examples/ref1.png”，则可以描述为 “a toy camera in yellow and red with blue buttons”。
结果优化 ：如果生成的视频不理想，最直接的解决办法是尝试更改 --base_seed 并修改 --prompt 中的描述。

六、实验结果

Phantom 框架在身份保持视频生成方面表现出色。在单参考主体到视频生成和多参考主体到视频生成任务中，均能较好地保持主体身份特征，同时生成具有较高质量和连贯性的视频内容。

七、致谢

论文作者对 SEED 团队表示感谢，特别感谢 Lu Jiang、Haoyuan Guo、Zhibei Ma 和 Sen Wang 在模型和数据方面的帮助，同时也对 Siying Chen、Qingyang Li 和 Wei Han 在评估过程中的协助表示感激。

八、核心技术汇总

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla