通过多 Agent 模式和 Prompt 工程,快速搭建一个雅思口语陪练 Bot。

Bot 效果

雅思口语专家是一个与 AI 进行口语陪练的智能体,通过模拟雅思考试的备考全流程,提供 Part1 练习、Part2&3 练习、雅思考试模拟功能,帮助用户提高雅思英语口语能力,降低备考成本。

Bot 上线两周内,获得了 200+ 收藏,2万多人次使用,对话数量 25 万条。人均对话轮数超过 10 轮,平均对话时长 10 分钟以上,也收到了众多用户的好评。

https://p9-arcosite.byteimg.com/obj/tos-cn-i-goo7wpa0wc/27acde87d313426ea3622d3ad081df2d

应用场景

雅思考试市场年规模可达数十亿元人民币,包含报名费、培训费等。口语是中国考生的主要难点,缺乏语言环境尤为不利,所以口语能力对申请出国留学的学生来说是面试成功的关键因素之一。

搭建一个雅思口语陪练 Bot,可以实现以下场景:

  • 模拟练习:提供24/7的练习机会,帮助考生随时进行口语练习。
  • 个性化反馈:通过分析考生的回答,Bot 可以提供个性化的反馈和改进建议。
  • 模拟真实考试:Bot 可以模拟雅思口语考试的环境,帮助考生熟悉考试流程和题型。

Bot 设计

雅思口语陪练 Bot 分为 3 个功能模块,即练习 Part1、练习Part2 和 Part3、进行雅思口语考试。Bot 选用多 Agent 模式,包含 3 个独立 Bot,分别实现各个功能模块的功能。每个 Bot 添加全局跳转条件,识别到用户意图后将对话流转到指定的节点处理。

Bot 的设计思路如下:

Bot 的设计和编排主要通过 Prompt 工程和多 Agent 模式实现,

  • 利用COT+Fewshot,让模型能够基本准确执行任务链路。

以Part1的出题 Prompt 为例,完整模拟该部分在实际练习中的全链路流程,我们通过步骤的指定和少样本语句的搭配,让技能执行有序逻辑的同时,兼顾处理特殊情况的能力。

  • 通过Prompt结构性的优化,使得模型具备准确召回,并处理特殊情况的能力。

以题库的结构化逻辑为例,我们通过准确定义的 Markdown 语言逻辑,让模型实现的复杂的题库召回。在兼顾边界回复案例,优化用户体验的背景下,我们还利用 Markdown 格式,让模型在处理上下文时,面对边缘案例也能成功拥有有效的处理能力。

Bot 的编排详情如下:

功能实现

多 Agent 设计

在多 Agent 的跳转逻辑设定中,在 Part1/2 的模型中,我们选择了“在当前节点的运行过程中识别”的模式,让 Part 之间的跳转决策后置,让跳转行为更为可控。但是对于希望用户能够沉浸完成正常考试的“模拟考试”节点,我们选择了“独立于当前节点的模型识别-大语言模型”模式,增加跳转决策受到 Prompt 影响的权重,对跳转行为做出了更多强制性的限制。

练习 Part1

雅思口语考试的 Part1 一般耗时 4-5 分钟,主要考察日常口语交流,范围覆盖工作、学习、兴趣爱好、家庭等。这些功能由一个独立的 Bot 实现,通过 Bot 的人设与回复逻辑实现随机出题、评分和反馈、进度管理的功能。

  • 角色:为 Bot 指定一个雅思口语陪练专家的人设。
  • 技能:为 Bot 添加以下技能:
    • 出题:提供一个题库给 Bot,并指定他的提问方式。
    • 评分与评价:为 Bot 提供评分标准,为 Bot 添加评分技能;提供答案解析的案例,为 Bot 添加口语评价的技能。

功能逻辑如下:

Part1 部分的详细 Bot 编排逻辑可参考 Part1

评分与评价:

查看题库:

练习 Part2 和 Part3

在雅思口语考试中,Part2 和 Part3 的流程如下:

  • Part2(3-4分钟):根据考题准备 1 分钟,并进行 2 分钟左右的陈述。话题通常与个人经历、人物、地点、物品等相关。
  • Part3(4-5分钟):基于 Part 2 的话题,和考官进行更深入、更抽象和更具思辨性的讨论,考察语言能力、逻辑思维和应对复杂问题的能力。

Part2 和 Part3 的考试流程由一个独立的 Bot 实现,通过 Bot 的人设与回复逻辑实现需求确认、出题和评价评分、材料准备等功能。

  • 角色:为 Bot 指定一个雅思口语陪练专家的人设。
  • 技能:为 Bot 添加以下技能:
    • 确认需求:让用户选择练习模块,并根据他的需求跳转到 Bot 的其他技能,例如材料准备等。
    • 出题和评价评分:让 Bot 提供话题列表,并为用户的英文输入进行评价,最终给出本题得分。同时为 Bot 提供评分标准、样例、突发情况的处理措施。
    • 材料准备:让 Bot 分析模块的具体话题、引导提问并梳理材料。同时为 Bot 提供大量题库以供参考。

功能逻辑如下:

Part2 和 Part3 部分的详细 Bot 编排逻辑可参考 Part2&Part3

Part2实现效果:

回顾学习进度:

雅思模拟考试

在雅思模拟考试中,Bot 会从 Part 1 到 Part 3 完成完整的一次交流,模拟的过程中老师打出分数和优化建议。考试流程同样由一个独立的 Bot 实现,通过 Bot 的人设与回复逻辑实现出题和评价评分等功能。

  • 角色:为 Bot 指定一个雅思口语陪练专家的人设。
  • 技能:为 Bot 添加以下技能:
    • 出题:模拟考试流程,Bot 出题并引导用户回答。同时为 Bot 提供大量题库以供参考。
    • 评分与评价:并为用户的英文输入进行评价,最终给出本题得分。同时为 Bot 提供评分标准、样例。

功能逻辑如下:

模拟考试效果:

Bot 评测

制作评测集

我们主要通过模拟不同类型的用户行为,来制定 Bot 功能的评测集,衡量 Bot 表现是否符合预期。下面是我们制定评测集的思路:

  • 模拟学霸类用户对 Part 1/2/3 进行评测

重点评测方向:

    • 回复的准确性与稳定性
    • 逐句优化的稳定性
    • 在引入一定干扰(功能指令)的情况下,测试 Bot 的记忆能力上限,直至稳定出现幻觉
  • 模拟学渣类用户对 Part 1/2/3进行评测

重点评测方向:

    • 回复的准确性与稳定性
    • 逐句优化的稳定性
    • 在存在较多干扰(功能指令、中文、无关信息消息)的情况下,测试 Bot 的记忆能力上限
  • 模拟准备初期用户梳理 Part 2 材料与串题

重点评测方向:

    • 梳理提问思路是否合理
    • 材料整理的质量
    • 串题的准确性

邀请真实用户评测

在完成一轮评测和自测之后,我们邀请了 15 位真实的大学生用户,对我们的产品功能做了评测,并根据用户的真实反馈,针对性地对 Prompt 和功能逻辑做了优化。通过与学生用户的深入沟通交流,我们收获了诸多高质量的真实反馈,从而在语气优化和细节处理方面更有把握。

相关资源

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐