用Dify构建文生视频工作流:从输入到输出

在内容创作日益依赖AI的今天,我们不再满足于“文字生成文字”或“图像生成图像”——真正的突破发生在多模态协同中。想象这样一个场景:你只需输入一句“一只发光水母在深海中缓缓漂浮,周围是古老的沉船和闪烁的磷光”,几秒钟后就能看到一段动态视频自动呈现出来。这不再是科幻电影的情节,而是通过 Dify 搭建的工作流可以实现的真实能力。

本文将带你一步步构建一个端到端的“文生视频”自动化流程。整个过程无需编写代码,完全基于 Dify 的可视化编排能力完成。我们将从用户输入关键词开始,经过语义增强、调用外部模型生成视频,再到最终输出友好格式的结果,全程打通逻辑链条。


Dify 是什么?它为什么适合做这类任务?

Dify 是一个开源的 AI Agent 与大模型应用开发平台,它的核心价值在于:让复杂的人工智能系统变得可组装、可调试、可交付

传统上,要实现文生视频功能,你需要写脚本、管理 API 密钥、处理异步回调、设计错误重试机制……而这些都分散在不同的文件和日志里,维护成本极高。

但 Dify 提供了图形化的工作流(Workflow)模式,你可以像搭积木一样把每个步骤连接起来:

  • 用户输入 →
  • 大语言模型润色提示词 →
  • 调用插件生成视频 →
  • 再次使用 LLM 美化结果 →
  • 返回结构化响应

每一步都是独立节点,数据自动流转,出错时还能逐节点调试。这种“低代码 + 高可控”的方式特别适合快速验证创意原型,也便于团队协作与后期迭代。


准备工作:环境与模型配置

动手之前,请确保以下条件已就绪:

  1. 已部署 Dify 实例(推荐使用官方 docker-compose 方式一键启动)
  2. 获取至少一个大语言模型供应商的 API Key(如 SiliconFlow、通义千问等)
  3. 开通支持文生视频服务的接口权限(本文以「豆包」Doubao 的 Seedance 模型为例)

💡 小贴士:如果你还没部署 Dify,可以直接访问其 GitHub 仓库获取最新版镜像:

https://github.com/langgenius/dify

部署完成后登录控制台,在「设置 → 模型供应商」中添加你的 LLM 接入信息,并测试连通性。这是后续所有节点运行的基础。


构建工作流:从零开始搭建自动化流水线

我们的目标很明确:构建一条完整的执行路径:

[用户输入] 
    → [LLM 扩展描述] 
    → [调用文生视频 API] 
    → [LLM 格式化输出] 
    → [返回美观结果]

现在进入实操环节。

添加大语言模型(LLM)

首先进入「设置 → 模型供应商」页面,点击「添加模型供应商」,选择你信任的服务商,比如:

  • SiliconFlow
  • Tongyi Qwen
  • OpenAI

填写对应的 API Key 并保存。建议启用多个模型作为备用方案,提升系统的容错能力。

例如,我们可以选用 deepseek-ai/DeepSeek-V3 来进行提示词优化。这个模型在中文理解和创造性表达方面表现优异,非常适合用于丰富原始输入。


创建 Workflow 应用

回到首页,点击「工作室 → 创建空白应用」,选择 Workflow 类型。

填写基本信息:

  • 名称:文生视频工作流
  • 描述:基于 Dify 实现文本到视频的自动化生成

确认后进入可视化画布界面。你会看到默认的「开始」节点,接下来的所有操作都将围绕它展开。


理解系统变量结构

Dify 在运行时会自动注入一组上下文变量,开发者可以在任意节点中引用它们来增强控制力。常见的系统变量包括:

变量名 类型 说明
sys.user_id String 当前用户的唯一标识
sys.app_id String 应用 ID,可用于追踪来源
sys.workflow_run_id String 单次执行实例 ID,便于日志关联
sys.files Array[File] 用户上传的文件列表(需开启上传功能)

虽然本次示例不直接使用这些变量,但在企业级项目中,它们对审计、限流和个性化处理非常关键。


添加用户输入节点

点击「开始」节点右侧的「+」号,选择「变量 → 文本输入」。

配置如下:

  • 变量名称query
  • 显示名称:请输入视频主题
  • 最大长度:256
  • 是否必填:是

这个节点就是整个流程的入口。用户在这里输入类似“未来城市飞行汽车”这样的关键词,后续所有处理都将基于此展开。

保存后,该值可在其他节点中通过 {{query}} 引用。


使用 LLM 增强提示词

紧接着添加一个 LLM 节点,用于将简短模糊的关键词转化为详细、具象的视觉描述。

配置参数如下:

  • 模型提供商:SiliconFlow
  • 模型名称deepseek-ai/DeepSeek-V3
  • 模式:Chat
  • System Prompt
请根据用户提供的关键词,生成一段生动、具体且富有画面感的文字描述,适合作为视频生成模型的输入提示词。描述长度控制在100字以内。

用户关键词:{{query}}

⚠️ 注意事项:
- 不要开启“流式响应”,否则下游节点可能无法正确解析完整输出
- 温度(Temperature)建议设为 0.7,平衡创造性和稳定性
- 最大 Token 数限制为 512

举个例子,当用户输入“小猫游泳”时,该节点可能会输出:

“一只毛茸茸的小黄猫在清澈的泳池中欢快地划水,阳光洒在水面泛起粼粼波光,它眯着眼睛吐泡泡,尾巴像螺旋桨一样摆动。”

这条描述明显比原输入更适合驱动视频生成模型。


安装文生视频插件

目前主流的大模型平台尚未全面开放原生文生视频能力,因此我们需要借助插件集成外部服务。

进入左侧菜单「插件 → 安装插件」,在 Marketplace 中搜索 Doubao Image and Video Generator

找到后点击安装,并进入配置页完成授权:

  • 填写你的 Volcano Engine(火山引擎)API Key
  • 选择可用模型,如 seedance-1.0-t2v 或轻量版 seedance-1.0-lite-t2v

🔐 安全建议:不要使用主账号密钥,应创建专用子账号并分配最小必要权限。

授权成功后,你就可以在工作流中调用其 Text to Video 功能了。


添加文生视频节点

回到画布,点击上一 LLM 节点后的「+」号,选择:

工具 → Doubao Image and Video Generator → Text to Video

关键配置项如下:

  • Prompt 输入{{llm_output}}(即前一个节点的输出)
  • Modelseedance-1.0-lite-t2v(响应更快)
  • Aspect Ratio16:9
  • Duration4s

该节点会向豆包 API 提交请求,启动视频生成任务。由于是异步处理,通常需要等待 20~30 秒才能获取结果。

返回的数据结构大致如下:

{
  "text": "视频生成成功!链接: https://...",
  "files": [],
  "json": [
    {
      "type": "video",
      "url": "https://ark-content-generation-cn-beijing.tos-cn-beijing.volces.com/..."
    }
  ]
}

注意:部分平台返回的是临时链接,有效期有限(如 24 小时),实际生产环境中应考虑缓存或转存策略。


第二轮 LLM 处理:美化输出结果

直接返回原始 JSON 显然不够友好。为了让用户体验更自然,我们再加一个 LLM 节点来做“翻译”工作。

新建一个 LLM 节点,配置如下:

  • 模型:继续使用 DeepSeek-V3
  • System Prompt
你是一个友好的助手,请向用户告知视频已生成成功,并提供一个可点击播放的链接。语气亲切自然,附带简单播放建议。

视频信息如下:
{{text_to_video_node.output}}

这里 {{text_to_video_node.output}} 会自动提取上一节点的完整输出内容,包括 URL 和元数据。

期望输出示例如下:

您的视频已成功生成!🎬

点击下方链接即可观看:
播放视频

小贴士:如果无法播放,请尝试复制链接到浏览器打开。

这种方式不仅提升了交互质感,还隐藏了底层技术细节,让用户专注于内容本身。


添加结束节点并连接流程

最后一步,点击最后一个 LLM 节点后的「+」号,选择「结束节点」。

将「结果」字段绑定为最新 LLM 的输出:{{llm_second_output}}

此时整个流程已经闭环:

开始 
→ 用户输入(query) 
→ LLM增强提示词 
→ 文生视频生成 
→ LLM美化输出 
→ 结束

检查各节点之间的连线是否完整,确保没有断点或循环依赖。Dify 会在发布前进行基本校验,但人工复核仍是必要的。


发布与测试工作流

一切就绪后,点击右上角「发布」按钮,将当前版本上线。

发布成功后,可通过两种方式测试:

  1. 试运行面板:直接在 UI 中输入测试词,如“樱花树下穿汉服的女孩跳舞”
  2. API 调用:复制接口地址,用 Postman 或 curl 发起请求

系统将自动执行全流程:

  1. 第一个 LLM 扩展描述
  2. 插件调用 Seedance 模型生成视频
  3. 接收并解析返回结果
  4. 第二个 LLM 生成友好回复
  5. 返回最终消息

一次典型的输出效果如下:

您的视频已成功生成!🎬

点击下方按钮即可在线观看由 AI 生成的精彩画面:

[▶ 播放视频](https://ark-content-generation-cn-beijing.tos-cn-beijing.volces.com/doubao-seedance-1-0-lite-t2v/xxxxx.mp4?X-Tos-...)

温馨提示:
- 视频链接有效期为 24 小时
- 若加载缓慢,请检查网络连接
- 如需重新生成,请修改关键词再次提交

感谢使用 Dify 文生视频工作流!

你还可以将该应用导出为标准 API 接口,嵌入网页、小程序、客服系统或其他业务流程中,真正实现“AI 即服务”。


这套方案的核心优势在哪里?

比起手写脚本或纯 API 调用,这套基于 Dify 的工作流带来了几个实质性提升:

开发效率飞跃:无需编写一行代码,拖拽即可完成复杂逻辑编排
调试体验极佳:每个节点独立运行,失败时能精准定位问题环节
易于维护与协作:流程可视化,新人也能快速理解整体架构
灵活扩展性强:随时替换不同 LLM 或接入新插件(如 Stable Video Diffusion、Pika 等)
具备企业级特性:支持版本管理、权限控制、执行日志追踪

更重要的是,它把“AI 应用开发”从“程序员专属”变成了“产品、运营、设计师都能参与”的共创过程。


下一步还能怎么优化?

虽然当前流程已能稳定运行,但仍有不少值得深化的方向:

1. 嵌入视频预览组件

目前只能返回链接。未来可在前端集成轻量级播放器,让用户直接在 Dify 界面内预览视频,提升闭环体验。

2. 引入队列与限流机制

高频请求可能导致第三方 API 触发限流。可通过内置缓存或结合 Redis 实现排队机制,保障服务质量。

3. 结合 RAG 推荐热门主题

接入知识库,分析用户历史偏好,主动推荐“适合生成视频”的关键词组合,比如节日专题、教育素材等。

4. 支持图生视频与风格迁移

除了“文→视”,还可拓展“图→视”路径。例如上传一张概念草图,生成动态演示视频,适用于动画前期制作。

5. 自动归档与版权管理

对于生成的重要内容,可自动同步至对象存储,并打上时间戳、作者标签等元信息,便于后期检索与合规审查。


如果你正在寻找一种高效、稳定且易于协作的方式来构建 AI 原生应用,那么 Dify 绝对是一个值得深入探索的强大工具。

它不只是一个开发平台,更是一种新的思维方式:把复杂的 AI 能力拆解成可组合的模块,像搭乐高一样快速拼出创新产品

现在就开始吧,让你的创意从文字跃然成“影”。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐