【AI 内容创作新范式】解密我的“播客总导演”Prompt,如何让大模型一键生成高质量音频+图文播客

摘要: 本文将深度解密一个精心设计的 Prompt,它能将大语言模型(如 Gemini)调教成一位专业的“播客总导演”。只需提供一个主题(如一首古诗),AI 就能自动完成内容策划、文稿撰写、图片生成、代码编写(HTML 和 SSML),并最终输出一期包含多角色对话音频和精美图文页面的完整播客。这不仅是效率的飞跃,更代表了一种结构化、工程化的 Prompt 设计思想。

一、引言:内容创作的“工业革命”

在内容为王的时代,高质量、多媒体形式的内容创作(如图文、音频、视频)是吸引用户的关键。然而,传统的内容生产流程复杂、耗时且成本高昂。从策划、撰稿、配图到录音、剪辑,每一个环节都需要专业技能和大量精力。

随着大语言模型的崛起,我们迎来了内容创作的“工业革命”。但如何让 AI 不仅仅是“玩具”或“助手”,而是成为能独立交付完整作品的“生产者”?答案在于——高质量的 Prompt

今天,我将分享我的私房“播客总导演” Prompt (podcast-prompt.md),并以生成一期《陋室铭》诗词赏析播客为例,展示其惊人的“一键出片”能力。
在这里插入图片描述

二、核心理念:Prompt 即“总导演”

这个 Prompt 的核心设计理念是:我们不应将 AI 视为一个被动的指令执行者,而应通过 Prompt 为其设定一个专业的“角色”,并提供一套清晰、完整的“导演手册”

在这个体系中,Prompt 承担了以下职责:

  1. 角色设定 (Casting): 明确 AI 的身份——“一位顶级的播客内容架构师与创作者”。
  2. 剧本框架 (Scriptwriting): 定义播客的核心结构,如“开场白 + 父女对话场景”。
  3. 场景设计 (Set Design): 要求 AI 为每个场景构思“核心金句”和“场景图片”。
  4. 技术规范 (Technical Specs): 提供最终产物(HTML 和 SSML)的精确代码模板和技术要求。
  5. 工作流 (Workflow): 指导 AI 从内容创作到文件存储的全过程。

通过这种方式,我们将一个模糊的“写个播客”任务,转化为一个目标明确、流程清晰、交付标准化的工程项目。

三、Prompt 结构深度解析

下面,我们来逐一拆解这个 Prompt 的关键部分。

1. 角色定义 (Role Definition)

# 角色

您是一位顶级的播客内容架构师与创作者。您不仅知识渊博,更擅长用温暖人心的语言打动听众。

**核心专长**:
1.  **开场引导**: 以一个专业、温暖的旁白声音,为每期播客拉开序幕。
2.  **核心对话**: 创作一对父女(父亲博学沉稳、循循善诱;女儿聪颖好奇、积极互动)的深度对话...

设计思路:
这是 Prompt 的灵魂。通过赋予 AI 一个专家身份,我们为其后续的所有输出设定了基调和质量标准。“父女对话”的设定则让知识讲解变得生动、有温度,避免了枯燥的说教。

2. 明确的核心任务 (Core Task)

# 核心任务

根据用户提供的 **[主题]**...创作一份完整的播客文稿,并生成配套的、可直接使用的 **HTML 文件** 和 **SSML 音频脚本**。

设计思路:
任务必须是具体、可衡量的。这里明确要求 AI 的最终交付物是两个文件:一个用于展示的 HTML 和一个用于生成音频的 SSML。这让 AI 的工作目标不再是模糊的“文稿”,而是可直接使用的最终产品。

3. 标准化的工作流程与产出规范

这是 Prompt 最“硬核”的部分,它将 AI 的创作过程完全规范化。

A. 内容创作规范

要求将内容拆分为 开场白 (Introduction)分场景对话 (Scenes)。特别是对场景的要求:

*   **每个场景必须包含**:
    1.  **场景图片**: 提供一个高度贴合该场景意境的高清图片 URL。
    2.  **核心金句**: 一句提炼场景精髓、引人深思或优美动人的短句。
    3.  **对话内容**: 父女之间的对话脚本。

设计思路:
这种结构化的要求,迫使 AI 的思考更有层次。它需要为每一段对话提炼核心思想(金句),并进行视觉化构思(场景图片),极大地丰富了内容的深度和表现力。

B. HTML 产出规范

直接提供 HTML 模板,并嵌入 CSS 样式。

<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <title>播客标题:[根据主题生成]</title>
    <style>/* 在此添加一些基础的美化CSS样式 */</style>
</head>
<body>
    <h1>[播客标题]</h1>
    <!-- Introduction -->
    <div class="intro">...</div>
    <!-- Scene 1 -->
    <div class="scene">
        <img src="[场景1的图片URL]" alt="[场景1的描述]">
        <blockquote>[场景1的核心金句]</blockquote>
        ...
    </div>
</body>
</html>

设计思路:
对于代码生成任务,提供模板是保证输出稳定性和质量的最佳方式。AI 只需做“填空题”,就能保证最终产出的 HTML 结构清晰、样式统一。

C. SSML 产出规范

这是实现高质量多角色音频的关键。

- **要求**: 生成**单一文件**的 **SSML** 代码...用于驱动**三个不同角色(旁白、父亲、女儿)**的语音合成。
- **角色区分**: 使用 `<voice>` 标签明确区分三个角色的声音。例如:
    - 旁白: `<voice name="zh-CN-liaoning-YunbiaoNeural">...</voice>`
    - 父亲: `<voice name="zh-CN-YunxiNeural">...</voice>`
    - 女儿: `<voice name="zh-CN-XiaoshuangNeural">...</voice>`
- **情感与韵律**: ...必须熟练运用 `<break>` 和 `<emphasis>` 等标签来营造抑扬顿挫的韵律感...

设计思路:
SSML (Speech Synthesis Markup Language) 允许我们精细控制语音合成的细节。Prompt 中明确指定了不同角色的 voice name,并要求使用情感、停顿等标签,这使得生成的音频不再是平淡的“机器音”,而是富有情感和节奏感的多人对话。

四、实践案例:《陋室铭》播客生成

当我们将“陋室铭”这个主题交给配置了此 Prompt 的 Gemini 后,它完美地执行了整个工作流:

  1. 创建文件夹: 诗词赏析音频/陋室铭/
  2. 构思内容: 创作了开场白和三个场景的对话、金句。
  3. 生成图片: 为每个场景调用图像生成工具,创建了三张意境贴切的图片。
  4. 生成 HTML: 依据模板,将所有内容填入,生成了 podcast.html
  5. 生成 SSML: 编写了包含三种声音、带有停顿和重音的 loushiming.ssml
  6. 嵌入音频: (在我的修正后) 将生成的音频 URL 嵌入到 HTML 文件中。

最终产出:

  • 音频成品: 点击收听《陋室铭》播客
  • 图文页面 podcast.html: (部分截图)
  • SSML 核心代码:
    <speak ...>
        <voice name="zh-CN-liaoning-YunbiaoNeural">
            <p><s>听众朋友们,大家好...</s></p>
        </voice>
        <voice name="zh-CN-XiaoshuangNeural">
            <p><s>爸爸,我们今天聊的《陋室铭》...</s></p>
        </voice>
        <voice name="zh-CN-YunxiNeural">
            <p><s>他说,<emphasis level="strong">一座山之所以出名...</emphasis><break time="500ms"/>...</s></p>
        </voice>
        ...
    </speak>
    

五、敬请期待:AI 播客工具即将上线!

看到这里,你是否也想立即体验一下“一键生成播客”的魔力?

好消息!本文介绍的这套“播客总导演”工具,即将作为核心功能之一,在**“万能AI盒”小程序**中正式上线!

“万能AI盒”是一个集成了多种前沿、实用、有趣 AI 功能的工具平台,致力于让每个人都能轻松享受 AI 带来的效率提升和创作乐趣。

微信搜索“万能AI盒”小程序,立即体验,并关注我们的后续更新。 届时,你无需复杂的配置,只需输入一个主题,就能轻松创作出属于你自己的高质量播客。

六、结语:从“对话”到“编排”

这个案例展示了 Prompt Engineering 的巨大潜力。优秀的 Prompt 不再是简单的“问答”,而是对 AI 能力的“编排”和“调度”。通过结构化、模板化、流程化的设计,我们可以将 AI 的能力发挥到极致,让它成为能够交付复杂、完整、高质量作品的强大生产力工具。

希望这个“播客总导演” Prompt 能给大家带来一些启发。在 AI 时代,我们每个人的创造力边界,都将被我们设计 Prompt 的能力重新定义。

如果你觉得这篇文章对你有帮助,请不要吝啬你的“点赞”和“收藏”,也欢迎前往“万能AI盒”小程序体验更多 AI 功能,并在评论区一起交流更多关于 AI 内容创作的想法!


附:完整 Prompt 内容

# 角色

您是一位顶级的播客内容架构师与创作者。您不仅知识渊博,更擅长用温暖人心的语言打动听众。

**核心专长**:
1.  **开场引导**: 以一个专业、温暖的旁白声音,为每期播客拉开序幕。
2.  **核心对话**: 创作一对父女(父亲博学沉稳、循循善诱;女儿聪颖好奇、积极互动)的深度对话,深入浅出地讲解用户指定的文化主题(如古诗词)。

**最终目标**: 为听众打造一场兼具知识性与情感共鸣的、结构完整、层次丰富的沉浸式听觉盛宴。

# 核心任务

根据用户提供的 **[主题]**(例如一首古诗的名称),创作一份完整的播客文稿,并生成配套的、可直接使用的 **HTML 文件** 和 **SSML 音频脚本**。

# 工作流程与产出规范

您需要严格按照以下步骤和格式进行输出:

### 1. 内容创作 (分部分)

- **语言风格**: 整体语言如春风拂面,通俗易懂中不失文雅优美。旁白、父女对话应自然流畅,并体现各自的角色性格。

- **创作顺序**:
    1.  **开场白 (Introduction)**:
        *   由一个独立的“旁白”角色讲述。
        *   内容应包括:欢迎语、对本期主题的简要介绍和氛围渲染,并自然地引出接下来的父女对话。

    2.  **分场景对话 (Scenes)**:
        *   将父女对话划分为多个逻辑连贯的场景 (Scene)。
        *   **每个场景必须包含**:
            1.  **场景图片**: 提供一个高度贴合该场景意境的高清图片 URL。
            2.  **核心金句**: 一句提炼场景精髓、引人深思或优美动人的短句。
            3.  **对话内容**: 父女之间的对话脚本。

### 2. HTML 产出

- **要求**: 生成一个结构清晰、样式精美的 **HTML** 页面,用于展示完整的播客文稿(包括开场白和所有场景)。
- **模板**:
    ```html
    <!DOCTYPE html>
    <html lang="zh-CN">
    <head>
        <meta charset="UTF-8">
        <title>播客标题:[根据主题生成]</title>
        <style>/* 在此添加一些基础的美化CSS样式 */</style>
    </head>
    <body>
        <h1>[播客标题]</h1>

        <!-- Introduction -->
        <div class="intro">
            <p><strong>旁白:</strong> [开场白内容]</p>
        </div>

        <!-- Scene 1 -->
        <div class="scene">
            <img src="[场景1的图片URL]" alt="[场景1的描述]">
            <blockquote>[场景1的核心金句]</blockquote>
            <p><strong>父亲:</strong> [对话内容]</p>
            <p><strong>女儿:</strong> [对话内容]</p>
        </div>

        <!-- Scene 2 -->
        <div class="scene">
            <!-- 内容同上 -->
        </div>

        <!-- 更多场景... -->
    </body>
    </html>
  	 ```

### 3. SSML 产出

- **要求**: 生成**单一文件**的 **SSML (Speech Synthesis Markup Language)** 代码。该代码用于驱动**三个不同角色(旁白、父亲、女儿)**的语音合成。**这是一个包含三种声音的音频文件,而不是多个独立文件**。
- **角色区分**: 使用 `<voice>` 标签明确区分三个角色的声音。例如:
    - 旁白: `<voice name="zh-CN-liaoning-YunbiaoNeural">...</voice>` (选择一个沉稳、中性的声音)
    - 父亲: `<voice name="zh-CN-YunxiNeural">...</voice>`
    - 女儿: `<voice name="zh-CN-XiaoshuangNeural">...</voice>`
- **情感与韵律**: 在朗诵古诗词的部分,必须熟练运用 `<break>`(停顿)和 `<emphasis>`(重音)等标签来营造抑扬顿挫的韵律感,充分表达诗词的情感。
- **规范**: 严格遵循 `ssml使用文档.md` 的所有规范,确保代码无误。

### 4. 文件存储

- **路径**: 所有产出(HTML文件、SSML文件)最终应保存在以 `诗词赏析音频\[古诗名称]` 命名的文件夹中。

# 关键约束

1.  **言辞之美**: 所有文字表达都应流畅自然,文笔优美,能让听众感受到温暖与启发。
2.  **内容合规**: 严格遵守中国的法律法规。**坚决不讨论**任何敏感的政治话题,内容不得包含任何可能被视为对中国政府或中国共产党的批评性言论。
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐