内容摘要

本指南系统性地解构了字节跳动 Seedance 2.0 多模态视频生成工具的完整使用方法,涵盖从素材准备到成片输出的全流程操作。核心内容分为三大模块:

模块一:全能参考工作流基础

  • 素材资源管理的"功能角色"分类法(角色锚定/场景定调/运镜参考/节奏氛围)
  • 四大经典场景的素材组合"黄金公式"(角色一致性短片/音乐卡点/创意模板复刻/口播对话)
  • 12个文件上限的合理分配策略(图片3-5张/视频1-2段/音频1段为主)
  • @语法的标准模板与常见陷阱(真人人脸限制/分辨率要求/指令冲突规避)

模块二:口播视频专项攻略

  • 原生口型同步的核心原理与素材准备三要素(角色图/干声音频/文字prompt)
  • 三级模板体系(最简口播/带场景控制/带运镜参考)
  • 五大常见问题的迭代优化方案(口型不准/表情僵硬/手部变形/画面抖动/背景错误)
  • 批量化生产的模板固化流程(角色图固定/场景图固定/仅换音频和文字)

模块三:15秒片段拼接长视频的三条路径

  • 路径一(视频延长接力):官方标准延长操作 + 连续动作描述技巧,适合30-45秒短口播
  • 路径二(多视频融合):中间插入过渡段 + 统一参考视频锚定法,适合1分钟以上长口播
  • 路径三(连续动作分镜):产品展示/教学演示场景的分镜规划与逐段接力生成
  • 剪辑阶段高级处理:B-roll遮切法/音频优先原则/统一后期处理(调色/降噪/BGM铺底)

实测经验与避坑指南

  • 延长功能的质量衰减临界点(连续3次以上需"重启")
  • @指令的精准标注要求(多素材场景下的角色图与场景图区分)
  • 首帧/尾帧同时指定的高级用法
  • 真人素材审核限制的替代方案

适用人群:短剧创作者/知识博主/产品推广/教学演示/批量化视频生产需求者

核心价值:将 Seedance 2.0 的多模态能力转化为可复制的标准化操作流程,解决"会用工具但不知道怎么组合素材"和"15秒限制下如何产出长视频"两大痛点,实现从单次抽卡到工业化生产的跨越。


关键数据参考

  • 素材上限:12个文件(图片≤9/视频≤3/音频≤3)
  • 单次生成时长:4-15秒可选
  • 视频分辨率范围:640×640 至 834×1112
  • 音频格式:mp3/wav,≤15秒
  • 推荐素材配置:5-8个文件(角色图×2 + 场景图×1 + 运镜视频×1 + 音频×1)

工作流时间成本

  • 单段15秒口播:5-10分钟(含排队)
  • 1分钟长口播(混合路径):30-60分钟
  • 系列口播批量生产:每条5-10分钟(模板化后)

一、素材资源管理:先建"素材库"思维

全能参考的核心逻辑是你给模型的素材越精准,它理解你的意图就越准确。所以在动手之前,先把素材按"功能角色"分好类:

功能角色 素材类型 举例
角色锚定 图片 主角正脸照、侧脸照、全身照
场景定调 图片 背景环境图、风格参考图
动作/运镜参考 视频 一段你想模仿的镜头运动、动作片段
节奏/氛围参考 音频 背景音乐、音效、旁白录音
剧情指令 文本 自然语言描述画面内容和动作

实操建议:在本地建一个文件夹结构,比如:

项目名/
├── 角色/         ← 人物参考图
├── 场景/         ← 环境、风格图
├── 运镜参考/     ← 参考视频片段(剪到15s以内)
├── 音频/         ← 配乐、音效
└── 提示词.txt    ← 写好的prompt

这样每次创作时直接从对应文件夹拖素材,不会手忙脚乱。


二、生成策略:素材组合的"黄金公式"

根据腾讯新闻的完整操作手册和社区实测经验,最常见且效果最好的组合模式有这几种:

场景A:角色一致性短片(最常用)

2-3张角色图 + 1段运镜参考视频 + 文字描述

比如你要做一个古装女子走在竹林里的镜头:

  • @图片1 作为角色参考(正脸)
  • @图片2 作为角色参考(全身服装)
  • @视频1 参考运镜(一段缓慢推进的竹林镜头)
  • 文字:「古装女子缓步走入竹林深处,衣袂飘飘,阳光透过竹叶洒下斑驳光影」

场景B:音乐卡点视频

1张角色图 + 1段音频 + 文字描述

  • @图片1 作为角色首帧
  • @音频1 作为背景音乐,视频节奏跟随音乐卡点
  • 文字:「角色随音乐节奏起舞,每个鼓点对应一个动作切换」

场景C:创意模板复刻(抖音爆款复刻)

1段参考视频 + 1-2张角色图 + 文字描述

  • @视频1 参考整体运镜和转场特效
  • @图片1 替换为我的角色形象
  • 文字:「保持参考视频的镜头运动和节奏,将人物替换为@图片1中的角色」

场景D:口播/对话场景

1张角色图 + 1段语音音频 + 文字描述

  • @图片1 作为说话角色
  • @音频1 作为角色的语音内容,匹配口型
  • 文字:「角色面对镜头说话,口型与音频同步,表情自然」

三、素材分配:12个文件怎么花在刀刃上

总上限12个文件,但不是塞满就好。根据社区反馈,素材太多反而会让模型"困惑",不知道该优先听谁的。经验法则:

  • 图片:3-5张足够。1-2张锁角色,1-2张定场景/风格,多了反而互相干扰
  • 视频:1-2段最佳。一段定运镜,一段定动作节奏。3段基本是上限且容易冲突
  • 音频:1段为主。要么是配乐,要么是语音,别同时塞两种功能的音频
  • 剩余额度留给补充性素材(比如额外的服装细节图、道具图等)

一个比较理想的分配方案:

角色图 ×2 + 场景图 ×1 + 运镜参考视频 ×1 + 配乐 ×1 + 文字prompt
= 5个文件 + 文字,留有余量,模型理解清晰

四、调用规划:@语法模板速查

全能参考模式下,@是你和模型沟通的"导演指令"。写法很自由,但有一些高效模板可以直接套:

基础模板

@图片1 作为角色参考
@图片2 作为场景参考
@视频1 参考运镜和动作节奏
@音频1 作为背景音乐
画面内容:一位身穿白色长裙的女子站在海边悬崖上,风吹起她的头发,
镜头从远景缓慢推近到面部特写,表情从平静变为微笑。

进阶模板(带时间节奏控制)

@视频1 参考前5秒的运镜方式
@音频1 用于配乐,视频节奏跟随音乐节拍
@图片1 角色外观参考
@图片2 场景风格参考
0-3秒:角色背对镜头站立,镜头缓慢环绕
3-8秒:角色转身面对镜头,表情变化
8-15秒:镜头快速拉远,展现全景

⚠️ 几个容易踩的坑

  1. 真人写实人脸素材有限制 — 平台对写实人脸审核较严,仅用作动作/运镜参考也可能被拦截。如果遇到这个问题,可以考虑用动漫风格或AI生成的人脸图替代。
  2. 视频分辨率要注意 — 参考视频的总像素数需要在640×640到834×1112之间,太高清的视频要先压缩。
  3. 不要在@指令里写矛盾的要求 — 比如同时让两段视频分别做"运镜参考"和"动作参考"但两段视频的运镜和动作完全不同,模型会两头为难。

总结:一个完整的工作流闭环

准备阶段 → 创作阶段 → 迭代阶段

1. 明确创作目标(什么类型的视频?多长?什么风格?)
2. 按功能角色整理素材(角色/场景/运镜/音频)
3. 选择入口(单图+文字→首尾帧;多素材→全能参考)
4. 合理分配文件数量(控制在5-8个,留余量)
5. 用@语法写清每个素材的"职责"
6. 生成 → 看效果 → 调整prompt或替换素材 → 再生成

如果排队太久,可以试试 Seedance 2.0 Fast 模型,速度更快,目前用的人还比较少。下面我把 Seedance 2.0 做口播视频的完整工作流给你拆清楚。


口播视频:Seedance 2.0 全能参考工作流

先说核心原理

Seedance 2.0 做口播的关键能力是原生口型同步——它不是先生成视频再后期对口型,而是在生成阶段就让音频和画面同步。你上传一段语音音频 + 角色图片,模型会自动让角色"说出"这段话,嘴型、表情、语气节奏都能匹配上。

根据 X 上的实测反馈,用 Agent 模式一张图就能生成带货/口播视频,人物动作幅度不大但稳定性不错,抽卡一次基本可用。


第一步:素材准备

口播视频的素材其实很简单,核心就三样:

① 角色图(1-2张)

这是口播的"主播形象"。建议准备:

  • 一张正面半身照(头肩到胸口),表情自然、嘴巴微闭——这是最理想的口播起始状态
  • 可选:一张全身照用于定服装风格

⚠️ 注意:平台对写实真人人脸审核较严。如果你用真人照片被拦截,有两个绕法:用 AI 生成的写实人像替代,或者走动漫/半写实风格。

② 语音音频(1段)

这是口播的"台词"。格式 mp3 或 wav,时长控制在 15 秒以内。

音频质量直接决定口型效果,几个要点:

  • 干声优先:尽量用纯人声,不要带背景音乐,否则模型可能把音乐也当成"要同步的内容"
  • 语速适中:太快的语速口型容易糊,正常说话节奏最好
  • 录音清晰:手机录音就行,但别有太大底噪

音频来源可以是:自己录、TTS 工具生成(比如即梦自带的语音功能、或者用其他 TTS 工具)、或者从已有视频里抽取音轨。

③ 文字 Prompt

描述你想要的画面内容和角色动作。


第二步:进入全能参考,上传素材

入口选择:Seedance 2.0 → 全能参考(因为有音频参与,不能走首尾帧入口)

上传顺序建议:先传角色图 → 再传音频 → 最后写 prompt。这样在写 @ 指令时素材列表已经就位。


第三步:写 @ 指令(最关键)

这是整个流程的核心。给你三个从简到繁的模板:

模板一:最简口播(一图一音频)

@图片1 作为角色形象,角色面对镜头说话,口型与 @音频1 同步,
表情自然,略带微笑,背景为简洁的室内环境。

素材消耗:2个文件。最省资源,适合快速出片。

模板二:带场景控制的口播

@图片1 作为说话的角色,正面半身,口型与 @音频1 精准同步。
@图片2 作为背景场景参考。
角色坐在办公桌前,面对镜头侃侃而谈,偶尔用手势辅助表达,
光线柔和,画面稳定,类似新闻主播的镜头感。

素材消耗:3个文件。多了一张场景图,画面更可控。

模板三:带运镜参考的高级口播

@图片1 作为角色形象参考
@音频1 作为角色说话的语音内容,口型同步
@视频1 参考运镜方式(缓慢推近的镜头)
角色面对镜头说话,从中景缓慢推近到面部特写,
说话时表情随内容变化,语气认真时微微皱眉,
讲到轻松话题时自然微笑。

素材消耗:4个文件。加了运镜参考视频,镜头语言更专业。


第四步:参数设置与生成

  • 时长:根据你的音频长度来定。音频 10 秒就选 10 秒,尽量让视频时长 ≥ 音频时长,否则会被截断
  • 模型选择:优先 Seedance 2.0 标准版;如果排队太久,试试 Seedance 2.0 Fast(据官方说目前用的人少,速度更快)
  • 生成后检查:重点看口型是否对得上、有没有面部变形、手部是否正常

第五步:迭代优化

口播视频一次出片完美的概率不算高,通常需要 2-3 次迭代。常见问题和调整方法:

问题 调整方向
口型对不上 换一段更清晰的干声音频;降低语速
角色表情僵硬 在 prompt 里加情绪描述,比如"表情生动"“说到激动处眉毛上扬”
手部变形 prompt 里写"双手自然放在桌面上"或"手部不出现在画面中"
画面抖动 加一句"镜头稳定,画面平稳";或上传一段稳定的运镜参考视频
背景不对 多加一张场景参考图,用 @ 明确指定

一个完整的实战例子

假设你要做一个"AI 工具推荐"的口播视频:

素材清单

  1. 角色.png — 用 AI 生成的一个年轻女性半身照,职业装,微笑
  2. 台词.mp3 — 用 TTS 生成的 12 秒语音:“大家好,今天给大家推荐三个超好用的 AI 工具……”
  3. 办公室背景.png — 一张简洁的现代办公室图片

Prompt

@图片1 作为说话的角色,面对镜头,口型与 @音频1 精准同步。
@图片2 作为背景环境参考。
角色坐在现代办公室中,面对镜头自然说话,
表情亲切有感染力,偶尔微微点头,
镜头从中景缓慢推近到近景,画面稳定柔和。

设置:时长 12 秒 → 生成 → 检查口型 → 满意就导出。


延伸:口播视频的批量化思路

如果你要做系列口播(比如每天一条知识分享),可以建立一个模板化流程

  1. 角色图固定 — 同一个角色形象反复使用,保证系列一致性
  2. 场景图固定 — 同一个背景,换不同的小道具点缀
  3. 只换音频和文字 — 每次只需要录新的台词音频,改 prompt 里的情绪/动作描述
  4. Prompt 模板化 — 把上面的 prompt 做成模板,每次只改几个关键词

这样每条口播视频的制作时间可以压缩到 5-10 分钟(含生成等待时间)。
下面把"15秒口播片段拼接成长视频"这件事给你讲透。


核心问题:Seedance 2.0 单次最长只能生成 15 秒

这意味着一段 1-2 分钟的口播视频,你需要拆成 4-8 个片段分别生成,然后拼起来。难点不在"拼"本身,而在于片段之间的衔接要自然——角色不能变脸、背景不能跳变、语音不能断裂。

有两条路径可以走:


路径一:用 Seedance 2.0 自带的「视频延长」功能接力生成

这是最省事的方法,不需要外部剪辑工具介入。

原理:把上一段生成的视频作为素材上传回全能参考,让模型"接着往下说"。

具体操作步骤

第 1 轮:生成第一段(0-15秒)

准备好角色图 + 第一段音频(比如台词的前15秒)+ prompt,正常生成。

@图片1 作为角色形象,面对镜头说话,口型与 @音频1 同步,
表情自然亲切,背景为简洁的书房环境,镜头稳定。

第 2 轮:延长生成第二段(15-30秒)

把第 1 轮生成的视频下载下来,然后重新进入全能参考:

将 @视频1 向后延长,角色继续面对镜头说话,
口型与 @音频1 同步,保持角色外观、背景、光线与前段完全一致,
镜头保持稳定不变。

这里的 @视频1 就是你第一轮生成的成品,@音频1 换成台词的第二段(15-30秒的部分)。

第 3 轮、第 4 轮……以此类推,每次都把上一轮的成品视频喂回去做延长。

关键技巧

  • 音频要提前切好:把完整的口播台词音频按 15 秒一段切开(用剪映、Audacity 都行),每段之间在断句处切,不要切在一个字的中间
  • 每次延长时重复角色描述:不要偷懒省掉角色外观描述,每轮都写上"保持角色外观一致",否则模型可能会"遗忘"
  • 尾帧衔接是关键:上一段视频的最后一帧会自动成为下一段的起始帧,所以上一段结尾时角色的姿态、表情要尽量"中性"——别在一个大幅度动作的中间截断

路径二:分段独立生成 + 剪辑软件拼接(更可控)

如果你对每一段的质量要求很高,或者延长功能的衔接效果不够理想,可以走这条路。

思路:每段独立生成,但通过锁定角色图 + 锁定场景图 + 统一 prompt 模板来保证视觉一致性,最后在剪辑软件里拼接。

第一步:前期规划

先把完整的口播台词写出来,然后按内容逻辑分段:

段落1(0-12秒):开场问候 + 引出话题
段落2(12-24秒):讲第一个要点
段落3(24-36秒):讲第二个要点
段落4(36-48秒):总结 + 引导关注

每段控制在 10-13 秒比较好(别卡满15秒,留一点余量给转场)。

第二步:统一素材包

所有段落共用同一套素材:

  • 同一张角色图(正脸半身照)
  • 同一张场景图(背景环境)
  • 统一的 prompt 模板,只改动作和情绪描述

模板示例:

@图片1 作为角色形象,面对镜头说话,口型与 @音频1 精准同步。
@图片2 作为背景环境。
角色坐在书房中,[本段动作描述],
镜头保持中景稳定,光线柔和自然。

每段只替换 [本段动作描述] 和对应的音频文件:

段落 动作描述 音频
1 微笑看向镜头,轻轻挥手打招呼 台词01.mp3
2 表情认真,偶尔用右手做手势强调 台词02.mp3
3 微微点头,表情轻松 台词03.mp3
4 露出笑容,最后对镜头竖大拇指 台词04.mp3

第三步:剪辑拼接

把所有生成的片段导入剪辑软件(剪映、Premiere、达芬奇都行),按顺序排列。重点处理片段之间的接缝

处理接缝的几个方法(从简单到复杂):

  1. 硬切 + 音频连续:最简单,直接拼。只要音频是连续的,观众的注意力会被声音牵着走,画面的微小跳变反而不太容易被注意到

  2. 叠化转场(Cross Dissolve):在两段之间加 0.3-0.5 秒的叠化,画面柔和过渡,能遮掉大部分不一致

  3. 插入 B-roll 遮切:在接缝处插入 1-2 秒的画外镜头(产品特写、文字标题、场景空镜),声音不断但画面切走,回来时观众已经不记得上一段角色的精确姿态了——这是专业口播视频最常用的手法

  4. 统一调色:所有片段拉到同一个色调下(剪映的"滤镜"或 LUT),视觉一致性会大幅提升

第四步:音频后处理

把切好的音频片段在剪辑软件里重新拼成一条完整音轨,检查:

  • 片段之间有没有断裂感(加 0.1 秒淡入淡出即可)
  • 整体音量是否一致
  • 如果需要背景音乐,在剪辑阶段统一铺一层,比让每段视频各自带 BGM 效果好得多

两条路径怎么选?

路径一:视频延长接力 路径二:分段独立 + 剪辑
优点 衔接最自然,不需要剪辑软件 每段可以独立调优,质量上限更高
缺点 越往后延长,画面质量可能逐渐衰减;某一段不满意需要从那段开始全部重做 需要额外的剪辑步骤;片段间可能有微小的视觉跳变
适合场景 30-45秒的短口播 1分钟以上的长口播
推荐指数 快速出片 ⭐⭐⭐⭐ 精品制作 ⭐⭐⭐⭐⭐

实战建议:混合使用效果最好

其实最聪明的做法是两条路径混着用

  1. 先用路径一的延长功能,把 15 秒延长到 30 秒(两段接力,衔接质量还不错)
  2. 这样你只需要做 2-3 个"30秒片段"而不是 4-8 个"15秒片段"
  3. 再用路径二的方法在剪辑软件里把这几个 30 秒片段拼起来
  4. 接缝更少,处理起来更轻松

一段 1 分钟的口播视频,用这个方法大概只需要 3 个接力组(每组 2 次生成),加上剪辑拼接,整体制作时间大约 30-60 分钟(含排队等待)。


好的,我结合刚上传的官方手册内容,把之前的"15秒口播片段拼接成长视频"方案进一步完善和补充。


15秒口播片段拼接成长视频:完善版工作流

根据官方手册,Seedance 2.0 的多模态参考能力可以让我们更精准地控制视频延长和片段融合。核心能力是:可参考万物 + 指令响应精准


路径一升级版:基于官方「视频延长」功能的接力生成

官方手册明确给出了延长的标准操作:

标准延长操作

第1轮:生成基础片段(0-15秒)

@图片1 作为角色形象,面对镜头说话,口型与 @音频1 同步,
表情自然亲切,背景为简洁的书房环境,镜头稳定。

生成时长选择:15秒

第2轮:延长操作(15-30秒)

按照官方说明,延长时的关键点:

将 @视频1 延长 15s,角色继续面对镜头说话,
口型与 @音频1(第二段台词音频)精准同步,
保持角色外观、背景、光线与前段完全一致,
镜头保持稳定不变。

⚠️ 重要:生成时长选择应为"新增部分"的时长,比如延长15秒,生成长度也选15秒

第3轮及后续:持续延长

每次都把上一轮的成品作为 @视频1,配合新的音频段落:

将 @视频1 延长 12s,角色继续说话,
口型与 @音频1(第三段台词)同步,
动作自然连贯,保持前两段的视觉风格一致。

进阶技巧:连续动作描述

官方建议在提示词中加入连续性描述来保证动作流畅:

将 @视频1 延长 15s,角色从微笑点头直接过渡到举手示意,
保持动作连贯流畅,口型与 @音频1 同步,
整体节奏与前段自然衔接。

路径二升级版:多视频融合 + 剪辑拼接

官方手册提到了一个更强大的能力:融合多个视频

方法A:中间插入过渡段

如果你已经生成了两段口播,但衔接不够自然,可以用这个方法:

我要在 @视频1 和 @视频2 之间加一个过渡场景,
内容为:角色停顿思考,微微侧头,然后重新看向镜头,
时长3秒,保持角色外观与两段视频一致。

生成时长选择:3秒(过渡段的长度)

这样你就得到了一个"粘合剂"片段,在剪辑软件里按 视频1 → 过渡段 → 视频2 的顺序排列即可。

方法B:分段独立生成 + 统一参考视频

这是我新发现的一个高级玩法:用第一段生成的视频作为运镜和风格参考,来生成后续所有片段。

第1段:正常生成

@图片1 作为角色,@音频1 作为台词,
角色面对镜头说话,背景为书房,镜头稳定。

第2段及后续:参考第1段的视觉风格

@图片1 为角色参考,@视频1(第一段成品)为运镜和风格参考,
@音频1(第二段台词)作为语音内容,
角色继续面对镜头说话,保持与 @视频1 相同的镜头角度、
光线氛围和背景布局,口型与音频同步。

这样做的好处:所有片段都"锚定"在第一段的视觉基准上,一致性会比完全独立生成好很多。


路径三(新增):连续动作分镜法

这是结合官方"连续动作"能力的创新玩法,适合需要动作变化的口播场景。

场景举例:产品介绍口播

假设你要做一个1分钟的产品介绍,角色需要在说话过程中展示产品:

分镜规划:

  • 0-15秒:开场介绍,角色空手说话
  • 15-30秒:拿起产品展示正面
  • 30-45秒:旋转产品展示侧面
  • 45-60秒:放下产品,总结收尾

生成策略:

第1段(0-15秒):

@图片1 作为角色,@音频1 作为台词,
角色面对镜头说话,双手自然放在桌面上,
桌上放着 @图片2(产品图)。

第2段(15-30秒):

@视频1(第一段成品)为参考,@音频1(第二段台词),
角色从桌上拿起产品举到胸前展示,
动作从静止平滑过渡到举起,保持连贯流畅,
口型与音频同步。

第3段(30-45秒):

@视频2(第二段成品)为参考,@音频1(第三段台词),
角色缓慢旋转手中的产品,展示侧面细节,
动作连贯自然,口型与音频同步。

第4段(45-60秒):

@视频3(第三段成品)为参考,@音频1(第四段台词),
角色将产品放回桌面,双手做总结手势,
动作流畅,最后微笑看向镜头。

每段都参考上一段的结尾状态,动作就能"接上"。


剪辑阶段的高级处理

技巧1:B-roll遮切法(最推荐)

在片段接缝处插入产品特写、文字说明、场景空镜等画外镜头:

[片段1:角色说话] 
→ [B-roll:产品特写3秒,声音继续] 
→ [片段2:角色继续说话]

观众的注意力被B-roll吸引,回来时已经不记得角色上一秒的精确姿态,接缝完全被遮掉。

技巧2:音频优先原则

声音的连续性比画面更重要。在剪辑软件里:

  1. 先把所有音频片段拼成一条完整音轨,确保无断裂
  2. 再把视频片段对齐到音频时间轴上
  3. 如果画面有微小跳变,只要声音是连续的,观众基本察觉不到

技巧3:统一后期处理

所有片段生成后,在剪辑软件里统一做:

  • 调色:拉到同一个色调(剪映的"一键调色"即可)
  • 降噪:统一的音频降噪参数
  • 锐化:统一的清晰度增强
  • 背景音乐:铺一层统一的BGM,比让每段各自带音效好得多

完整工作流总结

短口播(30-45秒)推荐流程:

1. 准备角色图1张 + 完整台词音频(切成2-3段)
2. 用"视频延长"功能接力生成2-3次
3. 直接下载成品,或简单剪辑加片头片尾

长口播(1-2分钟)推荐流程:

1. 准备角色图1张 + 场景图1张 + 完整台词音频(切成4-6段)
2. 生成第1段作为"视觉基准"
3. 后续段落都参考第1段的运镜和风格
4. 在剪辑软件里拼接,接缝处插入B-roll
5. 统一调色 + 铺背景音乐

动作变化口播(产品展示/教学演示)推荐流程:

1. 先画分镜草图,规划每15秒的动作变化
2. 每段都参考上一段成品,用"连续动作描述"
3. 剪辑时重点处理动作转换的接缝
4. 用B-roll遮盖高难度的动作衔接点

实测经验补充

根据社区反馈和我的理解:

  1. 延长功能的质量衰减问题:连续延长3次以上,画面质量可能下降。建议每延长2次就"重启"一次——把前30秒导出,作为新的参考视频开始下一轮

  2. @指令要写清楚:官方强调"素材多的时候,多检查各个@对象有没有标清楚",特别是同时有多个图片、视频时,别把角色图和场景图搞混

  3. 首帧/尾帧的妙用:如果你有理想的起始画面和结束画面,可以同时指定:

    @图1为首帧,@图2为尾帧,参考@视频1的运镜,
    角色从首帧状态平滑过渡到尾帧状态。
    
  4. 真人素材限制:官方提醒写实人脸审核较严,如果被拦截,用AI生成的人像或动漫风格替代

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐