即梦Seedance 2.0 全能参考完全指南:从素材管理到长视频制作的系统化工作流
本指南系统性地解构了字节跳动 Seedance 2.0 多模态视频生成工具的完整使用方法,涵盖从素材准备到成片输出的全流程操作。模块一:全能参考工作流基础素材资源管理的"功能角色"分类法(角色锚定/场景定调/运镜参考/节奏氛围)四大经典场景的素材组合"黄金公式"(角色一致性短片/音乐卡点/创意模板复刻/口播对话)12个文件上限的合理分配策略(图片3-5张/视频1-2段/音频1段为主)@语法的标准模
内容摘要
本指南系统性地解构了字节跳动 Seedance 2.0 多模态视频生成工具的完整使用方法,涵盖从素材准备到成片输出的全流程操作。核心内容分为三大模块:
模块一:全能参考工作流基础
- 素材资源管理的"功能角色"分类法(角色锚定/场景定调/运镜参考/节奏氛围)
- 四大经典场景的素材组合"黄金公式"(角色一致性短片/音乐卡点/创意模板复刻/口播对话)
- 12个文件上限的合理分配策略(图片3-5张/视频1-2段/音频1段为主)
- @语法的标准模板与常见陷阱(真人人脸限制/分辨率要求/指令冲突规避)
模块二:口播视频专项攻略
- 原生口型同步的核心原理与素材准备三要素(角色图/干声音频/文字prompt)
- 三级模板体系(最简口播/带场景控制/带运镜参考)
- 五大常见问题的迭代优化方案(口型不准/表情僵硬/手部变形/画面抖动/背景错误)
- 批量化生产的模板固化流程(角色图固定/场景图固定/仅换音频和文字)
模块三:15秒片段拼接长视频的三条路径
- 路径一(视频延长接力):官方标准延长操作 + 连续动作描述技巧,适合30-45秒短口播
- 路径二(多视频融合):中间插入过渡段 + 统一参考视频锚定法,适合1分钟以上长口播
- 路径三(连续动作分镜):产品展示/教学演示场景的分镜规划与逐段接力生成
- 剪辑阶段高级处理:B-roll遮切法/音频优先原则/统一后期处理(调色/降噪/BGM铺底)
实测经验与避坑指南
- 延长功能的质量衰减临界点(连续3次以上需"重启")
- @指令的精准标注要求(多素材场景下的角色图与场景图区分)
- 首帧/尾帧同时指定的高级用法
- 真人素材审核限制的替代方案
适用人群:短剧创作者/知识博主/产品推广/教学演示/批量化视频生产需求者
核心价值:将 Seedance 2.0 的多模态能力转化为可复制的标准化操作流程,解决"会用工具但不知道怎么组合素材"和"15秒限制下如何产出长视频"两大痛点,实现从单次抽卡到工业化生产的跨越。
关键数据参考
- 素材上限:12个文件(图片≤9/视频≤3/音频≤3)
- 单次生成时长:4-15秒可选
- 视频分辨率范围:640×640 至 834×1112
- 音频格式:mp3/wav,≤15秒
- 推荐素材配置:5-8个文件(角色图×2 + 场景图×1 + 运镜视频×1 + 音频×1)
工作流时间成本
- 单段15秒口播:5-10分钟(含排队)
- 1分钟长口播(混合路径):30-60分钟
- 系列口播批量生产:每条5-10分钟(模板化后)
一、素材资源管理:先建"素材库"思维
全能参考的核心逻辑是你给模型的素材越精准,它理解你的意图就越准确。所以在动手之前,先把素材按"功能角色"分好类:
| 功能角色 | 素材类型 | 举例 |
|---|---|---|
| 角色锚定 | 图片 | 主角正脸照、侧脸照、全身照 |
| 场景定调 | 图片 | 背景环境图、风格参考图 |
| 动作/运镜参考 | 视频 | 一段你想模仿的镜头运动、动作片段 |
| 节奏/氛围参考 | 音频 | 背景音乐、音效、旁白录音 |
| 剧情指令 | 文本 | 自然语言描述画面内容和动作 |
实操建议:在本地建一个文件夹结构,比如:
项目名/
├── 角色/ ← 人物参考图
├── 场景/ ← 环境、风格图
├── 运镜参考/ ← 参考视频片段(剪到15s以内)
├── 音频/ ← 配乐、音效
└── 提示词.txt ← 写好的prompt
这样每次创作时直接从对应文件夹拖素材,不会手忙脚乱。
二、生成策略:素材组合的"黄金公式"
根据腾讯新闻的完整操作手册和社区实测经验,最常见且效果最好的组合模式有这几种:
场景A:角色一致性短片(最常用)
2-3张角色图 + 1段运镜参考视频 + 文字描述
比如你要做一个古装女子走在竹林里的镜头:
- @图片1 作为角色参考(正脸)
- @图片2 作为角色参考(全身服装)
- @视频1 参考运镜(一段缓慢推进的竹林镜头)
- 文字:「古装女子缓步走入竹林深处,衣袂飘飘,阳光透过竹叶洒下斑驳光影」
场景B:音乐卡点视频
1张角色图 + 1段音频 + 文字描述
- @图片1 作为角色首帧
- @音频1 作为背景音乐,视频节奏跟随音乐卡点
- 文字:「角色随音乐节奏起舞,每个鼓点对应一个动作切换」
场景C:创意模板复刻(抖音爆款复刻)
1段参考视频 + 1-2张角色图 + 文字描述
- @视频1 参考整体运镜和转场特效
- @图片1 替换为我的角色形象
- 文字:「保持参考视频的镜头运动和节奏,将人物替换为@图片1中的角色」
场景D:口播/对话场景
1张角色图 + 1段语音音频 + 文字描述
- @图片1 作为说话角色
- @音频1 作为角色的语音内容,匹配口型
- 文字:「角色面对镜头说话,口型与音频同步,表情自然」
三、素材分配:12个文件怎么花在刀刃上
总上限12个文件,但不是塞满就好。根据社区反馈,素材太多反而会让模型"困惑",不知道该优先听谁的。经验法则:
- 图片:3-5张足够。1-2张锁角色,1-2张定场景/风格,多了反而互相干扰
- 视频:1-2段最佳。一段定运镜,一段定动作节奏。3段基本是上限且容易冲突
- 音频:1段为主。要么是配乐,要么是语音,别同时塞两种功能的音频
- 剩余额度留给补充性素材(比如额外的服装细节图、道具图等)
一个比较理想的分配方案:
角色图 ×2 + 场景图 ×1 + 运镜参考视频 ×1 + 配乐 ×1 + 文字prompt
= 5个文件 + 文字,留有余量,模型理解清晰
四、调用规划:@语法模板速查
全能参考模式下,@是你和模型沟通的"导演指令"。写法很自由,但有一些高效模板可以直接套:
基础模板:
@图片1 作为角色参考
@图片2 作为场景参考
@视频1 参考运镜和动作节奏
@音频1 作为背景音乐
画面内容:一位身穿白色长裙的女子站在海边悬崖上,风吹起她的头发,
镜头从远景缓慢推近到面部特写,表情从平静变为微笑。
进阶模板(带时间节奏控制):
@视频1 参考前5秒的运镜方式
@音频1 用于配乐,视频节奏跟随音乐节拍
@图片1 角色外观参考
@图片2 场景风格参考
0-3秒:角色背对镜头站立,镜头缓慢环绕
3-8秒:角色转身面对镜头,表情变化
8-15秒:镜头快速拉远,展现全景
⚠️ 几个容易踩的坑:
- 真人写实人脸素材有限制 — 平台对写实人脸审核较严,仅用作动作/运镜参考也可能被拦截。如果遇到这个问题,可以考虑用动漫风格或AI生成的人脸图替代。
- 视频分辨率要注意 — 参考视频的总像素数需要在640×640到834×1112之间,太高清的视频要先压缩。
- 不要在@指令里写矛盾的要求 — 比如同时让两段视频分别做"运镜参考"和"动作参考"但两段视频的运镜和动作完全不同,模型会两头为难。
总结:一个完整的工作流闭环
准备阶段 → 创作阶段 → 迭代阶段
1. 明确创作目标(什么类型的视频?多长?什么风格?)
2. 按功能角色整理素材(角色/场景/运镜/音频)
3. 选择入口(单图+文字→首尾帧;多素材→全能参考)
4. 合理分配文件数量(控制在5-8个,留余量)
5. 用@语法写清每个素材的"职责"
6. 生成 → 看效果 → 调整prompt或替换素材 → 再生成
如果排队太久,可以试试 Seedance 2.0 Fast 模型,速度更快,目前用的人还比较少。下面我把 Seedance 2.0 做口播视频的完整工作流给你拆清楚。
口播视频:Seedance 2.0 全能参考工作流
先说核心原理
Seedance 2.0 做口播的关键能力是原生口型同步——它不是先生成视频再后期对口型,而是在生成阶段就让音频和画面同步。你上传一段语音音频 + 角色图片,模型会自动让角色"说出"这段话,嘴型、表情、语气节奏都能匹配上。
根据 X 上的实测反馈,用 Agent 模式一张图就能生成带货/口播视频,人物动作幅度不大但稳定性不错,抽卡一次基本可用。
第一步:素材准备
口播视频的素材其实很简单,核心就三样:
① 角色图(1-2张)
这是口播的"主播形象"。建议准备:
- 一张正面半身照(头肩到胸口),表情自然、嘴巴微闭——这是最理想的口播起始状态
- 可选:一张全身照用于定服装风格
⚠️ 注意:平台对写实真人人脸审核较严。如果你用真人照片被拦截,有两个绕法:用 AI 生成的写实人像替代,或者走动漫/半写实风格。
② 语音音频(1段)
这是口播的"台词"。格式 mp3 或 wav,时长控制在 15 秒以内。
音频质量直接决定口型效果,几个要点:
- 干声优先:尽量用纯人声,不要带背景音乐,否则模型可能把音乐也当成"要同步的内容"
- 语速适中:太快的语速口型容易糊,正常说话节奏最好
- 录音清晰:手机录音就行,但别有太大底噪
音频来源可以是:自己录、TTS 工具生成(比如即梦自带的语音功能、或者用其他 TTS 工具)、或者从已有视频里抽取音轨。
③ 文字 Prompt
描述你想要的画面内容和角色动作。
第二步:进入全能参考,上传素材
入口选择:Seedance 2.0 → 全能参考(因为有音频参与,不能走首尾帧入口)
上传顺序建议:先传角色图 → 再传音频 → 最后写 prompt。这样在写 @ 指令时素材列表已经就位。
第三步:写 @ 指令(最关键)
这是整个流程的核心。给你三个从简到繁的模板:
模板一:最简口播(一图一音频)
@图片1 作为角色形象,角色面对镜头说话,口型与 @音频1 同步,
表情自然,略带微笑,背景为简洁的室内环境。
素材消耗:2个文件。最省资源,适合快速出片。
模板二:带场景控制的口播
@图片1 作为说话的角色,正面半身,口型与 @音频1 精准同步。
@图片2 作为背景场景参考。
角色坐在办公桌前,面对镜头侃侃而谈,偶尔用手势辅助表达,
光线柔和,画面稳定,类似新闻主播的镜头感。
素材消耗:3个文件。多了一张场景图,画面更可控。
模板三:带运镜参考的高级口播
@图片1 作为角色形象参考
@音频1 作为角色说话的语音内容,口型同步
@视频1 参考运镜方式(缓慢推近的镜头)
角色面对镜头说话,从中景缓慢推近到面部特写,
说话时表情随内容变化,语气认真时微微皱眉,
讲到轻松话题时自然微笑。
素材消耗:4个文件。加了运镜参考视频,镜头语言更专业。
第四步:参数设置与生成
- 时长:根据你的音频长度来定。音频 10 秒就选 10 秒,尽量让视频时长 ≥ 音频时长,否则会被截断
- 模型选择:优先 Seedance 2.0 标准版;如果排队太久,试试 Seedance 2.0 Fast(据官方说目前用的人少,速度更快)
- 生成后检查:重点看口型是否对得上、有没有面部变形、手部是否正常
第五步:迭代优化
口播视频一次出片完美的概率不算高,通常需要 2-3 次迭代。常见问题和调整方法:
| 问题 | 调整方向 |
|---|---|
| 口型对不上 | 换一段更清晰的干声音频;降低语速 |
| 角色表情僵硬 | 在 prompt 里加情绪描述,比如"表情生动"“说到激动处眉毛上扬” |
| 手部变形 | prompt 里写"双手自然放在桌面上"或"手部不出现在画面中" |
| 画面抖动 | 加一句"镜头稳定,画面平稳";或上传一段稳定的运镜参考视频 |
| 背景不对 | 多加一张场景参考图,用 @ 明确指定 |
一个完整的实战例子
假设你要做一个"AI 工具推荐"的口播视频:
素材清单:
角色.png— 用 AI 生成的一个年轻女性半身照,职业装,微笑台词.mp3— 用 TTS 生成的 12 秒语音:“大家好,今天给大家推荐三个超好用的 AI 工具……”办公室背景.png— 一张简洁的现代办公室图片
Prompt:
@图片1 作为说话的角色,面对镜头,口型与 @音频1 精准同步。
@图片2 作为背景环境参考。
角色坐在现代办公室中,面对镜头自然说话,
表情亲切有感染力,偶尔微微点头,
镜头从中景缓慢推近到近景,画面稳定柔和。
设置:时长 12 秒 → 生成 → 检查口型 → 满意就导出。
延伸:口播视频的批量化思路
如果你要做系列口播(比如每天一条知识分享),可以建立一个模板化流程:
- 角色图固定 — 同一个角色形象反复使用,保证系列一致性
- 场景图固定 — 同一个背景,换不同的小道具点缀
- 只换音频和文字 — 每次只需要录新的台词音频,改 prompt 里的情绪/动作描述
- Prompt 模板化 — 把上面的 prompt 做成模板,每次只改几个关键词
这样每条口播视频的制作时间可以压缩到 5-10 分钟(含生成等待时间)。
下面把"15秒口播片段拼接成长视频"这件事给你讲透。
核心问题:Seedance 2.0 单次最长只能生成 15 秒
这意味着一段 1-2 分钟的口播视频,你需要拆成 4-8 个片段分别生成,然后拼起来。难点不在"拼"本身,而在于片段之间的衔接要自然——角色不能变脸、背景不能跳变、语音不能断裂。
有两条路径可以走:
路径一:用 Seedance 2.0 自带的「视频延长」功能接力生成
这是最省事的方法,不需要外部剪辑工具介入。
原理:把上一段生成的视频作为素材上传回全能参考,让模型"接着往下说"。
具体操作步骤:
第 1 轮:生成第一段(0-15秒)
准备好角色图 + 第一段音频(比如台词的前15秒)+ prompt,正常生成。
@图片1 作为角色形象,面对镜头说话,口型与 @音频1 同步,
表情自然亲切,背景为简洁的书房环境,镜头稳定。
第 2 轮:延长生成第二段(15-30秒)
把第 1 轮生成的视频下载下来,然后重新进入全能参考:
将 @视频1 向后延长,角色继续面对镜头说话,
口型与 @音频1 同步,保持角色外观、背景、光线与前段完全一致,
镜头保持稳定不变。
这里的 @视频1 就是你第一轮生成的成品,@音频1 换成台词的第二段(15-30秒的部分)。
第 3 轮、第 4 轮……以此类推,每次都把上一轮的成品视频喂回去做延长。
关键技巧:
- 音频要提前切好:把完整的口播台词音频按 15 秒一段切开(用剪映、Audacity 都行),每段之间在断句处切,不要切在一个字的中间
- 每次延长时重复角色描述:不要偷懒省掉角色外观描述,每轮都写上"保持角色外观一致",否则模型可能会"遗忘"
- 尾帧衔接是关键:上一段视频的最后一帧会自动成为下一段的起始帧,所以上一段结尾时角色的姿态、表情要尽量"中性"——别在一个大幅度动作的中间截断
路径二:分段独立生成 + 剪辑软件拼接(更可控)
如果你对每一段的质量要求很高,或者延长功能的衔接效果不够理想,可以走这条路。
思路:每段独立生成,但通过锁定角色图 + 锁定场景图 + 统一 prompt 模板来保证视觉一致性,最后在剪辑软件里拼接。
第一步:前期规划
先把完整的口播台词写出来,然后按内容逻辑分段:
段落1(0-12秒):开场问候 + 引出话题
段落2(12-24秒):讲第一个要点
段落3(24-36秒):讲第二个要点
段落4(36-48秒):总结 + 引导关注
每段控制在 10-13 秒比较好(别卡满15秒,留一点余量给转场)。
第二步:统一素材包
所有段落共用同一套素材:
- 同一张角色图(正脸半身照)
- 同一张场景图(背景环境)
- 统一的 prompt 模板,只改动作和情绪描述
模板示例:
@图片1 作为角色形象,面对镜头说话,口型与 @音频1 精准同步。
@图片2 作为背景环境。
角色坐在书房中,[本段动作描述],
镜头保持中景稳定,光线柔和自然。
每段只替换 [本段动作描述] 和对应的音频文件:
| 段落 | 动作描述 | 音频 |
|---|---|---|
| 1 | 微笑看向镜头,轻轻挥手打招呼 | 台词01.mp3 |
| 2 | 表情认真,偶尔用右手做手势强调 | 台词02.mp3 |
| 3 | 微微点头,表情轻松 | 台词03.mp3 |
| 4 | 露出笑容,最后对镜头竖大拇指 | 台词04.mp3 |
第三步:剪辑拼接
把所有生成的片段导入剪辑软件(剪映、Premiere、达芬奇都行),按顺序排列。重点处理片段之间的接缝:
处理接缝的几个方法(从简单到复杂):
-
硬切 + 音频连续:最简单,直接拼。只要音频是连续的,观众的注意力会被声音牵着走,画面的微小跳变反而不太容易被注意到
-
叠化转场(Cross Dissolve):在两段之间加 0.3-0.5 秒的叠化,画面柔和过渡,能遮掉大部分不一致
-
插入 B-roll 遮切:在接缝处插入 1-2 秒的画外镜头(产品特写、文字标题、场景空镜),声音不断但画面切走,回来时观众已经不记得上一段角色的精确姿态了——这是专业口播视频最常用的手法
-
统一调色:所有片段拉到同一个色调下(剪映的"滤镜"或 LUT),视觉一致性会大幅提升
第四步:音频后处理
把切好的音频片段在剪辑软件里重新拼成一条完整音轨,检查:
- 片段之间有没有断裂感(加 0.1 秒淡入淡出即可)
- 整体音量是否一致
- 如果需要背景音乐,在剪辑阶段统一铺一层,比让每段视频各自带 BGM 效果好得多
两条路径怎么选?
| 路径一:视频延长接力 | 路径二:分段独立 + 剪辑 | |
|---|---|---|
| 优点 | 衔接最自然,不需要剪辑软件 | 每段可以独立调优,质量上限更高 |
| 缺点 | 越往后延长,画面质量可能逐渐衰减;某一段不满意需要从那段开始全部重做 | 需要额外的剪辑步骤;片段间可能有微小的视觉跳变 |
| 适合场景 | 30-45秒的短口播 | 1分钟以上的长口播 |
| 推荐指数 | 快速出片 ⭐⭐⭐⭐ | 精品制作 ⭐⭐⭐⭐⭐ |
实战建议:混合使用效果最好
其实最聪明的做法是两条路径混着用:
- 先用路径一的延长功能,把 15 秒延长到 30 秒(两段接力,衔接质量还不错)
- 这样你只需要做 2-3 个"30秒片段"而不是 4-8 个"15秒片段"
- 再用路径二的方法在剪辑软件里把这几个 30 秒片段拼起来
- 接缝更少,处理起来更轻松
一段 1 分钟的口播视频,用这个方法大概只需要 3 个接力组(每组 2 次生成),加上剪辑拼接,整体制作时间大约 30-60 分钟(含排队等待)。
好的,我结合刚上传的官方手册内容,把之前的"15秒口播片段拼接成长视频"方案进一步完善和补充。
15秒口播片段拼接成长视频:完善版工作流
根据官方手册,Seedance 2.0 的多模态参考能力可以让我们更精准地控制视频延长和片段融合。核心能力是:可参考万物 + 指令响应精准。
路径一升级版:基于官方「视频延长」功能的接力生成
官方手册明确给出了延长的标准操作:
标准延长操作
第1轮:生成基础片段(0-15秒)
@图片1 作为角色形象,面对镜头说话,口型与 @音频1 同步,
表情自然亲切,背景为简洁的书房环境,镜头稳定。
生成时长选择:15秒
第2轮:延长操作(15-30秒)
按照官方说明,延长时的关键点:
将 @视频1 延长 15s,角色继续面对镜头说话,
口型与 @音频1(第二段台词音频)精准同步,
保持角色外观、背景、光线与前段完全一致,
镜头保持稳定不变。
⚠️ 重要:生成时长选择应为"新增部分"的时长,比如延长15秒,生成长度也选15秒
第3轮及后续:持续延长
每次都把上一轮的成品作为 @视频1,配合新的音频段落:
将 @视频1 延长 12s,角色继续说话,
口型与 @音频1(第三段台词)同步,
动作自然连贯,保持前两段的视觉风格一致。
进阶技巧:连续动作描述
官方建议在提示词中加入连续性描述来保证动作流畅:
将 @视频1 延长 15s,角色从微笑点头直接过渡到举手示意,
保持动作连贯流畅,口型与 @音频1 同步,
整体节奏与前段自然衔接。
路径二升级版:多视频融合 + 剪辑拼接
官方手册提到了一个更强大的能力:融合多个视频
方法A:中间插入过渡段
如果你已经生成了两段口播,但衔接不够自然,可以用这个方法:
我要在 @视频1 和 @视频2 之间加一个过渡场景,
内容为:角色停顿思考,微微侧头,然后重新看向镜头,
时长3秒,保持角色外观与两段视频一致。
生成时长选择:3秒(过渡段的长度)
这样你就得到了一个"粘合剂"片段,在剪辑软件里按 视频1 → 过渡段 → 视频2 的顺序排列即可。
方法B:分段独立生成 + 统一参考视频
这是我新发现的一个高级玩法:用第一段生成的视频作为运镜和风格参考,来生成后续所有片段。
第1段:正常生成
@图片1 作为角色,@音频1 作为台词,
角色面对镜头说话,背景为书房,镜头稳定。
第2段及后续:参考第1段的视觉风格
@图片1 为角色参考,@视频1(第一段成品)为运镜和风格参考,
@音频1(第二段台词)作为语音内容,
角色继续面对镜头说话,保持与 @视频1 相同的镜头角度、
光线氛围和背景布局,口型与音频同步。
这样做的好处:所有片段都"锚定"在第一段的视觉基准上,一致性会比完全独立生成好很多。
路径三(新增):连续动作分镜法
这是结合官方"连续动作"能力的创新玩法,适合需要动作变化的口播场景。
场景举例:产品介绍口播
假设你要做一个1分钟的产品介绍,角色需要在说话过程中展示产品:
分镜规划:
- 0-15秒:开场介绍,角色空手说话
- 15-30秒:拿起产品展示正面
- 30-45秒:旋转产品展示侧面
- 45-60秒:放下产品,总结收尾
生成策略:
第1段(0-15秒):
@图片1 作为角色,@音频1 作为台词,
角色面对镜头说话,双手自然放在桌面上,
桌上放着 @图片2(产品图)。
第2段(15-30秒):
@视频1(第一段成品)为参考,@音频1(第二段台词),
角色从桌上拿起产品举到胸前展示,
动作从静止平滑过渡到举起,保持连贯流畅,
口型与音频同步。
第3段(30-45秒):
@视频2(第二段成品)为参考,@音频1(第三段台词),
角色缓慢旋转手中的产品,展示侧面细节,
动作连贯自然,口型与音频同步。
第4段(45-60秒):
@视频3(第三段成品)为参考,@音频1(第四段台词),
角色将产品放回桌面,双手做总结手势,
动作流畅,最后微笑看向镜头。
每段都参考上一段的结尾状态,动作就能"接上"。
剪辑阶段的高级处理
技巧1:B-roll遮切法(最推荐)
在片段接缝处插入产品特写、文字说明、场景空镜等画外镜头:
[片段1:角色说话]
→ [B-roll:产品特写3秒,声音继续]
→ [片段2:角色继续说话]
观众的注意力被B-roll吸引,回来时已经不记得角色上一秒的精确姿态,接缝完全被遮掉。
技巧2:音频优先原则
声音的连续性比画面更重要。在剪辑软件里:
- 先把所有音频片段拼成一条完整音轨,确保无断裂
- 再把视频片段对齐到音频时间轴上
- 如果画面有微小跳变,只要声音是连续的,观众基本察觉不到
技巧3:统一后期处理
所有片段生成后,在剪辑软件里统一做:
- 调色:拉到同一个色调(剪映的"一键调色"即可)
- 降噪:统一的音频降噪参数
- 锐化:统一的清晰度增强
- 背景音乐:铺一层统一的BGM,比让每段各自带音效好得多
完整工作流总结
短口播(30-45秒)推荐流程:
1. 准备角色图1张 + 完整台词音频(切成2-3段)
2. 用"视频延长"功能接力生成2-3次
3. 直接下载成品,或简单剪辑加片头片尾
长口播(1-2分钟)推荐流程:
1. 准备角色图1张 + 场景图1张 + 完整台词音频(切成4-6段)
2. 生成第1段作为"视觉基准"
3. 后续段落都参考第1段的运镜和风格
4. 在剪辑软件里拼接,接缝处插入B-roll
5. 统一调色 + 铺背景音乐
动作变化口播(产品展示/教学演示)推荐流程:
1. 先画分镜草图,规划每15秒的动作变化
2. 每段都参考上一段成品,用"连续动作描述"
3. 剪辑时重点处理动作转换的接缝
4. 用B-roll遮盖高难度的动作衔接点
实测经验补充
根据社区反馈和我的理解:
-
延长功能的质量衰减问题:连续延长3次以上,画面质量可能下降。建议每延长2次就"重启"一次——把前30秒导出,作为新的参考视频开始下一轮
-
@指令要写清楚:官方强调"素材多的时候,多检查各个@对象有没有标清楚",特别是同时有多个图片、视频时,别把角色图和场景图搞混
-
首帧/尾帧的妙用:如果你有理想的起始画面和结束画面,可以同时指定:
@图1为首帧,@图2为尾帧,参考@视频1的运镜, 角色从首帧状态平滑过渡到尾帧状态。 -
真人素材限制:官方提醒写实人脸审核较严,如果被拦截,用AI生成的人像或动漫风格替代
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐

所有评论(0)