即梦Seedance 2.0 全能参考完全指南：从素材管理到长视频制作的系统化工作流

本指南系统性地解构了字节跳动 Seedance 2.0 多模态视频生成工具的完整使用方法，涵盖从素材准备到成片输出的全流程操作。模块一：全能参考工作流基础素材资源管理的"功能角色"分类法（角色锚定/场景定调/运镜参考/节奏氛围）四大经典场景的素材组合"黄金公式"（角色一致性短片/音乐卡点/创意模板复刻/口播对话）12个文件上限的合理分配策略（图片3-5张/视频1-2段/音频1段为主）@语法的标准模

闹纳尼

2010人浏览 · 2026-02-13 00:55:34

闹纳尼 · 2026-02-13 00:55:34 发布

内容摘要

本指南系统性地解构了字节跳动 Seedance 2.0 多模态视频生成工具的完整使用方法，涵盖从素材准备到成片输出的全流程操作。核心内容分为三大模块：

模块一：全能参考工作流基础

素材资源管理的"功能角色"分类法（角色锚定/场景定调/运镜参考/节奏氛围）
四大经典场景的素材组合"黄金公式"（角色一致性短片/音乐卡点/创意模板复刻/口播对话）
12个文件上限的合理分配策略（图片3-5张/视频1-2段/音频1段为主）
@语法的标准模板与常见陷阱（真人人脸限制/分辨率要求/指令冲突规避）

模块二：口播视频专项攻略

原生口型同步的核心原理与素材准备三要素（角色图/干声音频/文字prompt）
三级模板体系（最简口播/带场景控制/带运镜参考）
五大常见问题的迭代优化方案（口型不准/表情僵硬/手部变形/画面抖动/背景错误）
批量化生产的模板固化流程（角色图固定/场景图固定/仅换音频和文字）

模块三：15秒片段拼接长视频的三条路径

路径一（视频延长接力）：官方标准延长操作 + 连续动作描述技巧，适合30-45秒短口播
路径二（多视频融合）：中间插入过渡段 + 统一参考视频锚定法，适合1分钟以上长口播
路径三（连续动作分镜）：产品展示/教学演示场景的分镜规划与逐段接力生成
剪辑阶段高级处理：B-roll遮切法/音频优先原则/统一后期处理（调色/降噪/BGM铺底）

实测经验与避坑指南

延长功能的质量衰减临界点（连续3次以上需"重启"）
@指令的精准标注要求（多素材场景下的角色图与场景图区分）
首帧/尾帧同时指定的高级用法
真人素材审核限制的替代方案

适用人群：短剧创作者/知识博主/产品推广/教学演示/批量化视频生产需求者

核心价值：将 Seedance 2.0 的多模态能力转化为可复制的标准化操作流程，解决"会用工具但不知道怎么组合素材"和"15秒限制下如何产出长视频"两大痛点，实现从单次抽卡到工业化生产的跨越。

关键数据参考

素材上限：12个文件（图片≤9/视频≤3/音频≤3）
单次生成时长：4-15秒可选
视频分辨率范围：640×640 至 834×1112
音频格式：mp3/wav，≤15秒
推荐素材配置：5-8个文件（角色图×2 + 场景图×1 + 运镜视频×1 + 音频×1）

工作流时间成本

单段15秒口播：5-10分钟（含排队）
1分钟长口播（混合路径）：30-60分钟
系列口播批量生产：每条5-10分钟（模板化后）

一、素材资源管理：先建"素材库"思维

全能参考的核心逻辑是你给模型的素材越精准，它理解你的意图就越准确。所以在动手之前，先把素材按"功能角色"分好类：

功能角色	素材类型	举例
角色锚定	图片	主角正脸照、侧脸照、全身照
场景定调	图片	背景环境图、风格参考图
动作/运镜参考	视频	一段你想模仿的镜头运动、动作片段
节奏/氛围参考	音频	背景音乐、音效、旁白录音
剧情指令	文本	自然语言描述画面内容和动作

实操建议：在本地建一个文件夹结构，比如：

项目名/
├── 角色/         ← 人物参考图
├── 场景/         ← 环境、风格图
├── 运镜参考/     ← 参考视频片段（剪到15s以内）
├── 音频/         ← 配乐、音效
└── 提示词.txt    ← 写好的prompt

这样每次创作时直接从对应文件夹拖素材，不会手忙脚乱。

二、生成策略：素材组合的"黄金公式"

根据腾讯新闻的完整操作手册和社区实测经验，最常见且效果最好的组合模式有这几种：

场景A：角色一致性短片（最常用）

2-3张角色图 + 1段运镜参考视频 + 文字描述

比如你要做一个古装女子走在竹林里的镜头：

@图片1 作为角色参考（正脸）
@图片2 作为角色参考（全身服装）
@视频1 参考运镜（一段缓慢推进的竹林镜头）
文字：「古装女子缓步走入竹林深处，衣袂飘飘，阳光透过竹叶洒下斑驳光影」

场景B：音乐卡点视频

1张角色图 + 1段音频 + 文字描述

@图片1 作为角色首帧
@音频1 作为背景音乐，视频节奏跟随音乐卡点
文字：「角色随音乐节奏起舞，每个鼓点对应一个动作切换」

场景C：创意模板复刻（抖音爆款复刻）

1段参考视频 + 1-2张角色图 + 文字描述

@视频1 参考整体运镜和转场特效
@图片1 替换为我的角色形象
文字：「保持参考视频的镜头运动和节奏，将人物替换为@图片1中的角色」

场景D：口播/对话场景

1张角色图 + 1段语音音频 + 文字描述

@图片1 作为说话角色
@音频1 作为角色的语音内容，匹配口型
文字：「角色面对镜头说话，口型与音频同步，表情自然」

三、素材分配：12个文件怎么花在刀刃上

总上限12个文件，但不是塞满就好。根据社区反馈，素材太多反而会让模型"困惑"，不知道该优先听谁的。经验法则：

图片：3-5张足够。1-2张锁角色，1-2张定场景/风格，多了反而互相干扰
视频：1-2段最佳。一段定运镜，一段定动作节奏。3段基本是上限且容易冲突
音频：1段为主。要么是配乐，要么是语音，别同时塞两种功能的音频
剩余额度留给补充性素材（比如额外的服装细节图、道具图等）

一个比较理想的分配方案：

角色图 ×2 + 场景图 ×1 + 运镜参考视频 ×1 + 配乐 ×1 + 文字prompt
= 5个文件 + 文字，留有余量，模型理解清晰

四、调用规划：@语法模板速查

全能参考模式下，@是你和模型沟通的"导演指令"。写法很自由，但有一些高效模板可以直接套：

基础模板：

@图片1 作为角色参考
@图片2 作为场景参考
@视频1 参考运镜和动作节奏
@音频1 作为背景音乐
画面内容：一位身穿白色长裙的女子站在海边悬崖上，风吹起她的头发，
镜头从远景缓慢推近到面部特写，表情从平静变为微笑。

进阶模板（带时间节奏控制）：

@视频1 参考前5秒的运镜方式
@音频1 用于配乐，视频节奏跟随音乐节拍
@图片1 角色外观参考
@图片2 场景风格参考
0-3秒：角色背对镜头站立，镜头缓慢环绕
3-8秒：角色转身面对镜头，表情变化
8-15秒：镜头快速拉远，展现全景

⚠️ 几个容易踩的坑：

真人写实人脸素材有限制 — 平台对写实人脸审核较严，仅用作动作/运镜参考也可能被拦截。如果遇到这个问题，可以考虑用动漫风格或AI生成的人脸图替代。
视频分辨率要注意 — 参考视频的总像素数需要在640×640到834×1112之间，太高清的视频要先压缩。
不要在@指令里写矛盾的要求 — 比如同时让两段视频分别做"运镜参考"和"动作参考"但两段视频的运镜和动作完全不同，模型会两头为难。

总结：一个完整的工作流闭环

准备阶段 → 创作阶段 → 迭代阶段

1. 明确创作目标（什么类型的视频？多长？什么风格？）
2. 按功能角色整理素材（角色/场景/运镜/音频）
3. 选择入口（单图+文字→首尾帧；多素材→全能参考）
4. 合理分配文件数量（控制在5-8个，留余量）
5. 用@语法写清每个素材的"职责"
6. 生成 → 看效果 → 调整prompt或替换素材 → 再生成

如果排队太久，可以试试 Seedance 2.0 Fast 模型，速度更快，目前用的人还比较少。下面我把 Seedance 2.0 做口播视频的完整工作流给你拆清楚。

口播视频：Seedance 2.0 全能参考工作流

先说核心原理

Seedance 2.0 做口播的关键能力是原生口型同步——它不是先生成视频再后期对口型，而是在生成阶段就让音频和画面同步。你上传一段语音音频 + 角色图片，模型会自动让角色"说出"这段话，嘴型、表情、语气节奏都能匹配上。

根据 X 上的实测反馈，用 Agent 模式一张图就能生成带货/口播视频，人物动作幅度不大但稳定性不错，抽卡一次基本可用。

第一步：素材准备

口播视频的素材其实很简单，核心就三样：

① 角色图（1-2张）

这是口播的"主播形象"。建议准备：

一张正面半身照（头肩到胸口），表情自然、嘴巴微闭——这是最理想的口播起始状态
可选：一张全身照用于定服装风格

⚠️ 注意：平台对写实真人人脸审核较严。如果你用真人照片被拦截，有两个绕法：用 AI 生成的写实人像替代，或者走动漫/半写实风格。

② 语音音频（1段）

这是口播的"台词"。格式 mp3 或 wav，时长控制在 15 秒以内。

音频质量直接决定口型效果，几个要点：

干声优先：尽量用纯人声，不要带背景音乐，否则模型可能把音乐也当成"要同步的内容"
语速适中：太快的语速口型容易糊，正常说话节奏最好
录音清晰：手机录音就行，但别有太大底噪

音频来源可以是：自己录、TTS 工具生成（比如即梦自带的语音功能、或者用其他 TTS 工具）、或者从已有视频里抽取音轨。

③ 文字 Prompt

描述你想要的画面内容和角色动作。

第二步：进入全能参考，上传素材

入口选择：Seedance 2.0 → 全能参考（因为有音频参与，不能走首尾帧入口）

上传顺序建议：先传角色图 → 再传音频 → 最后写 prompt。这样在写 @ 指令时素材列表已经就位。

第三步：写 @ 指令（最关键）

这是整个流程的核心。给你三个从简到繁的模板：

模板一：最简口播（一图一音频）

@图片1 作为角色形象，角色面对镜头说话，口型与 @音频1 同步，
表情自然，略带微笑，背景为简洁的室内环境。

素材消耗：2个文件。最省资源，适合快速出片。

模板二：带场景控制的口播

@图片1 作为说话的角色，正面半身，口型与 @音频1 精准同步。
@图片2 作为背景场景参考。
角色坐在办公桌前，面对镜头侃侃而谈，偶尔用手势辅助表达，
光线柔和，画面稳定，类似新闻主播的镜头感。

素材消耗：3个文件。多了一张场景图，画面更可控。

模板三：带运镜参考的高级口播

@图片1 作为角色形象参考
@音频1 作为角色说话的语音内容，口型同步
@视频1 参考运镜方式（缓慢推近的镜头）
角色面对镜头说话，从中景缓慢推近到面部特写，
说话时表情随内容变化，语气认真时微微皱眉，
讲到轻松话题时自然微笑。

素材消耗：4个文件。加了运镜参考视频，镜头语言更专业。

第四步：参数设置与生成

时长：根据你的音频长度来定。音频 10 秒就选 10 秒，尽量让视频时长 ≥ 音频时长，否则会被截断
模型选择：优先 Seedance 2.0 标准版；如果排队太久，试试 Seedance 2.0 Fast（据官方说目前用的人少，速度更快）
生成后检查：重点看口型是否对得上、有没有面部变形、手部是否正常

第五步：迭代优化

口播视频一次出片完美的概率不算高，通常需要 2-3 次迭代。常见问题和调整方法：

问题	调整方向
口型对不上	换一段更清晰的干声音频；降低语速
角色表情僵硬	在 prompt 里加情绪描述，比如"表情生动"“说到激动处眉毛上扬”
手部变形	prompt 里写"双手自然放在桌面上"或"手部不出现在画面中"
画面抖动	加一句"镜头稳定，画面平稳"；或上传一段稳定的运镜参考视频
背景不对	多加一张场景参考图，用 @ 明确指定

一个完整的实战例子

假设你要做一个"AI 工具推荐"的口播视频：

素材清单：

角色.png — 用 AI 生成的一个年轻女性半身照，职业装，微笑
台词.mp3 — 用 TTS 生成的 12 秒语音：“大家好，今天给大家推荐三个超好用的 AI 工具……”
办公室背景.png — 一张简洁的现代办公室图片

Prompt：

@图片1 作为说话的角色，面对镜头，口型与 @音频1 精准同步。
@图片2 作为背景环境参考。
角色坐在现代办公室中，面对镜头自然说话，
表情亲切有感染力，偶尔微微点头，
镜头从中景缓慢推近到近景，画面稳定柔和。

设置：时长 12 秒 → 生成 → 检查口型 → 满意就导出。

延伸：口播视频的批量化思路

如果你要做系列口播（比如每天一条知识分享），可以建立一个模板化流程：

角色图固定 — 同一个角色形象反复使用，保证系列一致性
场景图固定 — 同一个背景，换不同的小道具点缀
只换音频和文字 — 每次只需要录新的台词音频，改 prompt 里的情绪/动作描述
Prompt 模板化 — 把上面的 prompt 做成模板，每次只改几个关键词

这样每条口播视频的制作时间可以压缩到 5-10 分钟（含生成等待时间）。
下面把"15秒口播片段拼接成长视频"这件事给你讲透。

核心问题：Seedance 2.0 单次最长只能生成 15 秒

这意味着一段 1-2 分钟的口播视频，你需要拆成 4-8 个片段分别生成，然后拼起来。难点不在"拼"本身，而在于片段之间的衔接要自然——角色不能变脸、背景不能跳变、语音不能断裂。

有两条路径可以走：

路径一：用 Seedance 2.0 自带的「视频延长」功能接力生成

这是最省事的方法，不需要外部剪辑工具介入。

原理：把上一段生成的视频作为素材上传回全能参考，让模型"接着往下说"。

具体操作步骤：

第 1 轮：生成第一段（0-15秒）

准备好角色图 + 第一段音频（比如台词的前15秒）+ prompt，正常生成。

@图片1 作为角色形象，面对镜头说话，口型与 @音频1 同步，
表情自然亲切，背景为简洁的书房环境，镜头稳定。

第 2 轮：延长生成第二段（15-30秒）

把第 1 轮生成的视频下载下来，然后重新进入全能参考：

将 @视频1 向后延长，角色继续面对镜头说话，
口型与 @音频1 同步，保持角色外观、背景、光线与前段完全一致，
镜头保持稳定不变。

这里的 @视频1 就是你第一轮生成的成品，@音频1 换成台词的第二段（15-30秒的部分）。

第 3 轮、第 4 轮……以此类推，每次都把上一轮的成品视频喂回去做延长。

关键技巧：

音频要提前切好：把完整的口播台词音频按 15 秒一段切开（用剪映、Audacity 都行），每段之间在断句处切，不要切在一个字的中间
每次延长时重复角色描述：不要偷懒省掉角色外观描述，每轮都写上"保持角色外观一致"，否则模型可能会"遗忘"
尾帧衔接是关键：上一段视频的最后一帧会自动成为下一段的起始帧，所以上一段结尾时角色的姿态、表情要尽量"中性"——别在一个大幅度动作的中间截断

路径二：分段独立生成 + 剪辑软件拼接（更可控）

如果你对每一段的质量要求很高，或者延长功能的衔接效果不够理想，可以走这条路。

思路：每段独立生成，但通过锁定角色图 + 锁定场景图 + 统一 prompt 模板来保证视觉一致性，最后在剪辑软件里拼接。

第一步：前期规划

先把完整的口播台词写出来，然后按内容逻辑分段：

段落1（0-12秒）：开场问候 + 引出话题
段落2（12-24秒）：讲第一个要点
段落3（24-36秒）：讲第二个要点
段落4（36-48秒）：总结 + 引导关注

每段控制在 10-13 秒比较好（别卡满15秒，留一点余量给转场）。

第二步：统一素材包

所有段落共用同一套素材：

同一张角色图（正脸半身照）
同一张场景图（背景环境）
统一的 prompt 模板，只改动作和情绪描述

模板示例：

@图片1 作为角色形象，面对镜头说话，口型与 @音频1 精准同步。
@图片2 作为背景环境。
角色坐在书房中，[本段动作描述]，
镜头保持中景稳定，光线柔和自然。

每段只替换 [本段动作描述] 和对应的音频文件：

段落	动作描述	音频
1	微笑看向镜头，轻轻挥手打招呼	台词01.mp3
2	表情认真，偶尔用右手做手势强调	台词02.mp3
3	微微点头，表情轻松	台词03.mp3
4	露出笑容，最后对镜头竖大拇指	台词04.mp3

第三步：剪辑拼接

把所有生成的片段导入剪辑软件（剪映、Premiere、达芬奇都行），按顺序排列。重点处理片段之间的接缝：

处理接缝的几个方法（从简单到复杂）：

硬切 + 音频连续：最简单，直接拼。只要音频是连续的，观众的注意力会被声音牵着走，画面的微小跳变反而不太容易被注意到
叠化转场（Cross Dissolve）：在两段之间加 0.3-0.5 秒的叠化，画面柔和过渡，能遮掉大部分不一致
插入 B-roll 遮切：在接缝处插入 1-2 秒的画外镜头（产品特写、文字标题、场景空镜），声音不断但画面切走，回来时观众已经不记得上一段角色的精确姿态了——这是专业口播视频最常用的手法
统一调色：所有片段拉到同一个色调下（剪映的"滤镜"或 LUT），视觉一致性会大幅提升

第四步：音频后处理

把切好的音频片段在剪辑软件里重新拼成一条完整音轨，检查：

片段之间有没有断裂感（加 0.1 秒淡入淡出即可）
整体音量是否一致
如果需要背景音乐，在剪辑阶段统一铺一层，比让每段视频各自带 BGM 效果好得多

两条路径怎么选？

	路径一：视频延长接力	路径二：分段独立 + 剪辑
优点	衔接最自然，不需要剪辑软件	每段可以独立调优，质量上限更高
缺点	越往后延长，画面质量可能逐渐衰减；某一段不满意需要从那段开始全部重做	需要额外的剪辑步骤；片段间可能有微小的视觉跳变
适合场景	30-45秒的短口播	1分钟以上的长口播
推荐指数	快速出片 ⭐⭐⭐⭐	精品制作 ⭐⭐⭐⭐⭐

实战建议：混合使用效果最好

其实最聪明的做法是两条路径混着用：

先用路径一的延长功能，把 15 秒延长到 30 秒（两段接力，衔接质量还不错）
这样你只需要做 2-3 个"30秒片段"而不是 4-8 个"15秒片段"
再用路径二的方法在剪辑软件里把这几个 30 秒片段拼起来
接缝更少，处理起来更轻松

一段 1 分钟的口播视频，用这个方法大概只需要 3 个接力组（每组 2 次生成），加上剪辑拼接，整体制作时间大约 30-60 分钟（含排队等待）。

好的,我结合刚上传的官方手册内容,把之前的"15秒口播片段拼接成长视频"方案进一步完善和补充。

15秒口播片段拼接成长视频:完善版工作流

根据官方手册,Seedance 2.0 的多模态参考能力可以让我们更精准地控制视频延长和片段融合。核心能力是:可参考万物 + 指令响应精准。

路径一升级版:基于官方「视频延长」功能的接力生成

官方手册明确给出了延长的标准操作:

标准延长操作

第1轮:生成基础片段(0-15秒)

@图片1 作为角色形象,面对镜头说话,口型与 @音频1 同步,
表情自然亲切,背景为简洁的书房环境,镜头稳定。

生成时长选择:15秒

第2轮:延长操作(15-30秒)

按照官方说明,延长时的关键点:

将 @视频1 延长 15s,角色继续面对镜头说话,
口型与 @音频1(第二段台词音频)精准同步,
保持角色外观、背景、光线与前段完全一致,
镜头保持稳定不变。

⚠️ 重要:生成时长选择应为"新增部分"的时长,比如延长15秒,生成长度也选15秒

第3轮及后续:持续延长

每次都把上一轮的成品作为 @视频1,配合新的音频段落:

将 @视频1 延长 12s,角色继续说话,
口型与 @音频1(第三段台词)同步,
动作自然连贯,保持前两段的视觉风格一致。

进阶技巧:连续动作描述

官方建议在提示词中加入连续性描述来保证动作流畅:

将 @视频1 延长 15s,角色从微笑点头直接过渡到举手示意,
保持动作连贯流畅,口型与 @音频1 同步,
整体节奏与前段自然衔接。

路径二升级版:多视频融合 + 剪辑拼接

官方手册提到了一个更强大的能力:融合多个视频

方法A:中间插入过渡段

如果你已经生成了两段口播,但衔接不够自然,可以用这个方法:

我要在 @视频1 和 @视频2 之间加一个过渡场景,
内容为:角色停顿思考,微微侧头,然后重新看向镜头,
时长3秒,保持角色外观与两段视频一致。

生成时长选择:3秒(过渡段的长度)

这样你就得到了一个"粘合剂"片段,在剪辑软件里按视频1 → 过渡段 → 视频2 的顺序排列即可。

方法B:分段独立生成 + 统一参考视频

这是我新发现的一个高级玩法:用第一段生成的视频作为运镜和风格参考,来生成后续所有片段。

第1段:正常生成

@图片1 作为角色,@音频1 作为台词,
角色面对镜头说话,背景为书房,镜头稳定。

第2段及后续:参考第1段的视觉风格

@图片1 为角色参考,@视频1(第一段成品)为运镜和风格参考,
@音频1(第二段台词)作为语音内容,
角色继续面对镜头说话,保持与 @视频1 相同的镜头角度、
光线氛围和背景布局,口型与音频同步。

这样做的好处:所有片段都"锚定"在第一段的视觉基准上,一致性会比完全独立生成好很多。

路径三(新增):连续动作分镜法

这是结合官方"连续动作"能力的创新玩法,适合需要动作变化的口播场景。

场景举例:产品介绍口播

假设你要做一个1分钟的产品介绍,角色需要在说话过程中展示产品:

分镜规划:

0-15秒:开场介绍,角色空手说话
15-30秒:拿起产品展示正面
30-45秒:旋转产品展示侧面
45-60秒:放下产品,总结收尾

生成策略:

第1段(0-15秒):

@图片1 作为角色,@音频1 作为台词,
角色面对镜头说话,双手自然放在桌面上,
桌上放着 @图片2(产品图)。

第2段(15-30秒):

@视频1(第一段成品)为参考,@音频1(第二段台词),
角色从桌上拿起产品举到胸前展示,
动作从静止平滑过渡到举起,保持连贯流畅,
口型与音频同步。

第3段(30-45秒):

@视频2(第二段成品)为参考,@音频1(第三段台词),
角色缓慢旋转手中的产品,展示侧面细节,
动作连贯自然,口型与音频同步。

第4段(45-60秒):

@视频3(第三段成品)为参考,@音频1(第四段台词),
角色将产品放回桌面,双手做总结手势,
动作流畅,最后微笑看向镜头。

每段都参考上一段的结尾状态,动作就能"接上"。

剪辑阶段的高级处理

技巧1:B-roll遮切法(最推荐)

在片段接缝处插入产品特写、文字说明、场景空镜等画外镜头:

[片段1:角色说话] 
→ [B-roll:产品特写3秒,声音继续] 
→ [片段2:角色继续说话]

观众的注意力被B-roll吸引,回来时已经不记得角色上一秒的精确姿态,接缝完全被遮掉。

技巧2:音频优先原则

声音的连续性比画面更重要。在剪辑软件里:

先把所有音频片段拼成一条完整音轨,确保无断裂
再把视频片段对齐到音频时间轴上
如果画面有微小跳变,只要声音是连续的,观众基本察觉不到

技巧3:统一后期处理

所有片段生成后,在剪辑软件里统一做:

调色:拉到同一个色调(剪映的"一键调色"即可)
降噪:统一的音频降噪参数
锐化:统一的清晰度增强
背景音乐:铺一层统一的BGM,比让每段各自带音效好得多

完整工作流总结

短口播(30-45秒)推荐流程:

1. 准备角色图1张 + 完整台词音频(切成2-3段)
2. 用"视频延长"功能接力生成2-3次
3. 直接下载成品,或简单剪辑加片头片尾

长口播(1-2分钟)推荐流程:

1. 准备角色图1张 + 场景图1张 + 完整台词音频(切成4-6段)
2. 生成第1段作为"视觉基准"
3. 后续段落都参考第1段的运镜和风格
4. 在剪辑软件里拼接,接缝处插入B-roll
5. 统一调色 + 铺背景音乐

动作变化口播(产品展示/教学演示)推荐流程:

1. 先画分镜草图,规划每15秒的动作变化
2. 每段都参考上一段成品,用"连续动作描述"
3. 剪辑时重点处理动作转换的接缝
4. 用B-roll遮盖高难度的动作衔接点

实测经验补充

根据社区反馈和我的理解:

延长功能的质量衰减问题:连续延长3次以上,画面质量可能下降。建议每延长2次就"重启"一次——把前30秒导出,作为新的参考视频开始下一轮
@指令要写清楚:官方强调"素材多的时候,多检查各个@对象有没有标清楚",特别是同时有多个图片、视频时,别把角色图和场景图搞混

首帧/尾帧的妙用:如果你有理想的起始画面和结束画面,可以同时指定:

@图1为首帧,@图2为尾帧,参考@视频1的运镜,
角色从首帧状态平滑过渡到尾帧状态。

真人素材限制:官方提醒写实人脸审核较严,如果被拦截,用AI生成的人像或动漫风格替代

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla