Agent论文分享~04：TRIAGEAGENT

蟹堡王不卖汉堡

1290人浏览 · 2025-02-26 17:24:04

蟹堡王不卖汉堡 · 2025-02-26 17:24:04 发布

Agent论文分享~04：TRIAGEAGENT医学领域应用

论文题目：TRIAGEAGENT: Towards Better Multi-Agents Collaborations for Large Language Model-Based Clinical Triage
发表年份：2024
期刊/会议：EMNLP
代码：https://github.com/Lucanyc/TriageAgent.

摘要：

全球急诊科患者访问量的增加对高效的临床管理，特别是临床分诊，提出了重大挑战。传统上由人类专业人员管理的临床分诊容易受到显著的变异性影响，并且工作负荷高。尽管大型语言模型（LLMs）展示了有前景的推理和理解能力，但由于临床分诊任务的复杂性和动态性，直接将其应用于临床分诊仍然具有挑战性。为了解决这些问题，我们引入了TRIAGEAGENT，一种新颖的异构多智能体框架，旨在增强临床分诊中的协作决策。
TRIAGEAGENT利用LLMs进行角色扮演，通过自我信心机制和早期停止机制在多轮讨论中提高文档推理和分类精度。此外，TRIAGEAGENT通过检索增强生成（RAG）方法使用医学紧急严重程度指数（ESI）手册，提供精确的临床知识，并在决策过程中整合粗粒度和细粒度的ESI级别预测。广泛的实验表明，TRIAGEAGENT在三个临床分诊测试集上优于最先进的基于LLM的方法。此外，我们发布了第一个公开的临床分诊基准数据集，包含相应的ESI级别和人类专家表现以供比较。

实验步骤：

Step 1：Allocating Documents

在这里插入图片描述

查询：

以下临床记录的 ESI 级别是多少？请在对您的第一个建议答案进行第二次修改后给我一个最终的独特答案。您可以从紧急严重程度指数手册 v4 中学习。
在你给我答案之前，请仔细检查ESI手册并再次询问自己**（两轮自查）**当你确定这个ESI级别分类时。然后将以下病历按照ESI级别进行分类，候选答案为ESI-1,2,3,4,5。

ESI手册：

ESI手册参考文档

这是记录：

患者的叙述性临床记录

Step 2：Group-BasedClassification Analysis

在这里插入图片描述

这个阶段的目标是通过函数 f 来对病人的信息进行分类，并通过不同的分类方法（直接分类和粗到细分类）来提高分类效率和准确性。这对于紧急情况下的医疗决策尤为重要，可以帮助医生更快、更准确地做出处理决策。

分类函数：分类阶段被总结为一个函数 f : (P, R, q) → C，其中：

P 代表病人的临床笔记（病历信息）。
R 代表ESI手册中的结构化级别参考（如不同的紧急严重度级别）。
q 代表临床查询，可能是医生提出的问题或目标。
C 是最终的分类结果集，表示ESI级别的层次结构类别（例如，ESI的五个等级：1到5级，表示不同的紧急程度）。

Coarse-to-Fine-Grained Classification(粗细度分类)

Doctor A 执行初步的粗分类任务，将病人记录 Pi 分类为两大类：高严重度（C-high）或低严重度（C-low）。

数学表示为：A : Pi → {Chigh, Clow}

Doctor B 根据初步分类结果进一步细化，将 Chigh 分类为 {1, 2, 3}，将 Clow 分类为 {3, 4, 5}。

优势：

减少误分类：粗分类提供了一个有效的初步筛选，大大减少了后续细分类的范围，从而降低了错误分类的风险。
提高精度：精细分类能够更精确地判断具体的ESI级别，特别是在处理复杂病例时，可以逐步提高决策的准确性。

Direct Fine-Grained Classification 直接细粒度分类

Doctor C 直接对病人的临床记录 Pi 分配具体的 ESI 级别，范围是 {1, 2, 3, 4, 5}，即直接从所有五个级别中选择一个最合适的。

这种方法与粗到细分类不同，因为它没有初步的粗分类步骤，而是直接对每个病人记录进行细粒度的判断。
数学表示为：C : Pi → {1, 2, 3, 4, 5}。

优势：

这种方法的优势在于直接进行细粒度的分类，不需要先进行粗分类。这适用于那些病情比较明确或可以从临床记录中直接提取精确信息的病例。
通过逐步提高信心，医生C 可以在讨论和分析过程中逐步修正初步的分类结果，确保最终的分类更加准确。

综合策略：

结合两种策略：通过将粗到细分类和直接细粒度分类两种方法结合使用，系统能够在处理不同复杂度的病例时，灵活选择适合的分类策略。
- 粗到细分类 有助于在初步阶段快速筛选病人并进行初步分类。
- 直接细粒度分类 则更适合那些信息比较明确、可以直接进行精确分类的病例。
TRIAGEAGENT 的优势：通过这两种分类策略的协作，TRIAGEAGENT 系统能够更好地应对 ESI 级别之间的边界区分挑战，提高决策效率和准确性。两种策略的结合，使得系统在应对各种病例时，既能够提供快速的初步分类，又能够根据具体情况进行精确调整。

Step 3：Confidence Report Summarization

在这里插入图片描述

这一阶段的核心是通过 汇总Doctor A B C 来整合之前分类阶段各代理（A、B、C）的结果，包括它们的信心分数、推理过程和支持证据。具体过程如下：

步骤

汇总分类结果：
- 汇总会整合从不同代理（A、B、C）得到的分类结果。这些分类结果包括：
  - 信心分数：每个代理对其分类结果的信心程度。
  - 推理过程：每个代理在做出分类时的推理依据。
  - 支持证据：每个代理根据患者临床记录和ESI手册得出的证据和分析。
生成总结提示（Prompt）：
- 汇总代理将这些分析结果和证据构建为一个 总结提示（Promptrs），确保最终的决策是基于充足且可靠的支持信息。
- 此时，代理之间的讨论和辩论也会被纳入到总结提示中，增加结果的综合性和准确性。
生成综合报告：
- 汇总代理通过提取关键的医疗信息，并对各个代理提供的分类分析进行分析，生成一个综合报告（Repo）。
- 数学公式表示为：
```
Repo = LLM(P, R, rrs, Promptrs)
```
  其中：
  - Repo 代表生成的综合报告。
  - P 是病人的临床记录。
  - R 是ESI手册的参考。
  - rrs 是汇总代理的角色。
  - Promptrs 是用于指导汇总代理的总结提示，包括来自A1、A2、A3的分析报告。
综合报告结构
- 综合报告（Repo）的结构包括以下内容：
  - 关键信息：来自ESI手册的参考（例如，ESI手册 v4，第2章：ESI分诊算法，页码10-13），以及其他重要的临床信息。
  - 信心分数：每个分类结果的信心度。
  - 推理过程：说明各个代理的分析和判断依据。
  - 汇总分析：结合所有信息后的最终分析结果。

优势

多代理信息整合：
- 通过汇总代理的工作，来自不同代理的分析和意见得以整合，确保最终的决策不仅基于一个单一代理的判断，而是经过多个视角的验证和支持。
提高准确性、可解释性和可靠性：
- 汇总报告提供了完整的推理过程和支持证据，帮助医生或系统理解每个分类决定的背后依据，从而增加决策的透明度和可解释性。
可靠的分诊决策：
- 通过将信心分数、推理和辩论过程综合在一起，汇总代理生成的报告能够为临床决策提供更加全面且有根据的支持，从而提高分诊过程的准确性和可靠性。

Step 4：Collaborative Discussion(协同讨论)

在这里插入图片描述

在这一阶段，代理医生基于 综合报告（Repo） 进行多轮讨论，以进一步优化他们各自的分类结果。这一过程与常见的投票机制（例如Tang等人，2024年）不同，TRIAGEAGENT 强调对分类结果、推理过程和信心分数的深入反思，同时整合同伴提供的证据。

通过 协同讨论，代理医生能够基于其他代理的分析结果和证据进行自我反思和调整，从而提高分类结果的准确性和一致性。这种机制避免了简单的投票或一致性判断，而是通过更深层次的推理和论证来达成共识，确保分类结果具有充分的支持和合理性。

优势

减少错误：代理之间的相互讨论和反思能够有效地纠正错误的分类结果。
增强决策支持：每个代理在选择是否更新自己的分类结果时，会基于更充分的推理和证据，从而使最终的决策更加可靠。
提高结果一致性：通过多轮迭代讨论，代理能够就最终结果达成共识，减少了由于单个代理偏见导致的误差。

早停机制（Early-Stopping Mechanism）

为了提高小组讨论的效率，TRIAGEAGENT 引入了一种早停机制，这一机制借鉴了 拜占庭共识理论（Byzantine Consensus theory）和 基于人类反馈的强化学习（RLHF） 进展的思想。其核心目的是在确保准确性的同时，减少不必要的计算，提高决策效率。

关键步骤解析：

拜占庭共识理论（Byzantine Consensus）：
- 这一机制最初由 Castro 和 Liskov (1999) 提出，要求至少 3p + 1 个代理来处理 p 个故障代理。这意味着即使部分代理医生的分类结果出现错误，剩余的代理医生也能通过多轮讨论最终达成共识。
基于强化学习的启发：
- 早停机制还受到近年来 基于人类反馈的强化学习（RLHF） 方法的启发，尤其是 Du et al. (2023) 和 Ouyang et al. (2022) 的工作。这些方法通过模拟人类反馈和调整代理的行为，使得模型能够在多轮讨论后达成共识，并在无需进一步讨论时提前终止。
早停条件：该机制根据以下两个条件判断是否应提前停止讨论：
- 单个代理的高信心回答重复：
  - 如果某个代理多次提供相同的答案，并且信心分数很高，那么该代理会触发早停机制，退出讨论。
- 多个代理的一致性高信心回答：
  - 如果所有代理一致地给出相同的答案，并且信心分数很高，那么讨论会提前终止。这表示代理们已经达成了高度一致的结论，进一步的讨论就不再必要。
动态实时停止条件：
- 这一机制通过实时监控讨论进程，动态判断是否应终止。它根据每轮讨论的进展情况决定是否提前结束，从而提高了传统共识理论的效率。
机制的优势：
- 减少不必要的计算：如果代理们已经达成共识，系统可以快速结束讨论，避免了无意义的重复计算。
- 提高效率和准确性：通过早期结束无效讨论，系统能够更高效地得出准确的分类结论。

在 TRIAGEAGENT 中，早停机制应用于每一轮讨论。通过有效判断是否有必要继续进行更多讨论，机制确保了最终结果的高效性和准确性。具体来说，当大部分代理已经对分类结果达成共识，并且信心分数较高时，讨论将被提前终止，这样可以节省计算资源，并确保快速得出准确的诊断决策。

早停机制 通过引入 拜占庭共识理论 和 RLHF启发式方法，提高了代理讨论的效率。通过动态判断代理们是否已达成共识或是否需要继续讨论，该机制帮助 TRIAGEAGENT 系统减少不必要的计算，确保快速而准确地得出最终决策。其主要优势在于能够智能判断是否终止讨论，从而提高整个过程的效率和准确性。

Step 5：Consensus Agreement（共识协议）

在这一阶段，代理医生们通过整合之前协作讨论阶段中的精炼答案、推理和信心分数，达成最终的正式共识。该阶段确保所有代理在最终分类上达成一致，借助它们共同的领域知识来验证最终的决策。通过这种协作过程，确保了最终决策的稳健性和全面性。

思考

这篇论文在agent框架上，在初步判断上面采用的是由粗到细的方法以及agent的自我检查，agent之间的协作方式。
论阶段中的精炼答案**、推理和信心分数，达成最终的正式共识。该阶段确保所有代理在最终分类上达成一致，借助它们共同的领域知识来验证最终的决策。通过这种协作过程，确保了最终决策的稳健性和全面性。