本文提出了一种用于财务分析的多智能体框架 FinDebate,该框架将协同辩论与特定领域的检索增强生成(Retrieval-Augmented Generation,RAG)技术相结合。框架包含五个专业智能体,分别聚焦收益、市场、情感、估值和风险领域,各智能体并行运作,将证据整合为多维度洞察。为降低过度自信问题并提升可靠性,我们引入了安全辩论协议,使智能体能够在保留连贯建议的同时,对初步结论进行质疑和完善。基于大型语言模型(LLM)评估与人工评估的实验结果表明,该框架能够生成高质量分析报告,不仅具备校准后的置信度,还能针对不同时间维度提供可执行的投资策略。

尽管大型语言模型(LLMs)的出现推动了自然语言处理(NLP)领域的发展,但财务领域作为高价值应用场景,受严格的运营与监管约束,对分析结果的准确性、可靠性和可解释性要求极高。虽然 LLMs 能够处理海量非结构化财务数据,但其基于统计相关性训练的 “下一个 token 预测” 机制,导致输出结果会随提示词和运行次数波动。这一特性使得模型置信度常出现校准偏差,且生成的表述可能看似合理,却缺乏可验证证据的支撑,与财务领域对可验证推理和稳定建议的需求相背离。

除上述局限外,长篇多章节分析师报告还面临文档层面与流程层面的双重挑战。一方面,需将证据整合为统一连贯的表述,同时避免主题偏离,且不能出现无原始会议记录支撑的观点;另一方面,单一文本段落在不同分析维度下可能具有不同含义,文本分块与查询方式的设计选择,会显著影响证据的检索结果及跨维度推理的支撑效果。在报告修订过程中,观点连贯性与内容覆盖度可能受损,导致遗漏关键因素,或使投资论点发生非预期偏移。此外,推理过程需保持可追溯性和引用依据,同时不能牺牲可读性与决策导向的清晰度。

针对这些问题,业界已提出多种实用解决方案,但均存在不足:模板驱动的工作流程虽能保证规范性和风格一致性,却削弱了引用证据、中间推理与报告最终观点之间的关联性;检索增强生成(RAG)技术可锚定事实性观点,但难以将分散的摘录整合为连贯、多维度的表述;多智能体协同与辩论机制虽能发现短文本观点中的问题,但在长篇分章节分析师报告中,难以在覆盖所有关键要素的同时保持观点一致性。这些缺口催生了一种新的解决方案 —— 需同时实现观点稳定、扩大证据覆盖范围、明确风险表述,并保留引用可追溯性。

图片

图 1:FinDebate 框架概述 —— 一个面向财务分析的多智能体协同智能系统。

为填补上述空白,本文提出 FinDebate 框架,其核心是一种受安全约束的辩论协议,能够在强化证据支撑与风险表述的同时,保持观点稳定性。如图 1 所示,特定领域 RAG 模块与一组专业分析师智能体首先生成章节化初稿;随后进入辩论阶段,在智能体角色与任务范围内进行有限补充:辩论前的观点方向固定,智能体不得改变立场,且所有补充内容必须以可验证引用为依据。这种设计在保留投资逻辑主线的同时,提升了内容覆盖度与可验证性,最终生成可审计、面向决策的分析报告 —— 这一结论已通过 LLM 评估与人工评估得到验证。

方法论

图 1 展示了 FinDebate 的整体架构,该框架包含三个核心模块:(1)用于文档处理与证据检索的特定领域 RAG 模块;(2)用于生成初步报告的多智能体分析模块;(3)用于生成最终报告的辩论机制。附录 A 提供了任务示例,本节将详细介绍各模块设计。

特定领域 RAG 模块

文本分割策略

LLMs 在财务分析中的应用受限于上下文窗口大小,无法同时处理数百页的报告。为解决这一问题,我们基于 ChromaDB¹ 设计了特定领域 RAG 模块,该模块可对海量财务文档进行高效索引与相似性检索,支持低延迟证据提取及大规模下游快速处理。

为减少传统固定长度分块导致的信息丢失,我们采用基于上下文感知的分割策略。不同于与财务文档高密度、高结构化特征不匹配的固定 token 数分块方式,我们通过递归流程优先保证语义完整性:首先保留段落边界,其次保留句子边界,最后才以词汇 /token 为单位分割。这种层级分割方式避免了破坏性拆分,生成的文本片段具备自包含性与可解释性,为高精度检索与可靠下游推理奠定基础。

财务嵌入与多级检索

我们使用 FinLang² 对分割后的文本片段进行编码 ——FinLang 是基于 BGE(Zhang et al., 2023)通过特定领域微调得到的财务嵌入模型。选择该模型的原因在于其优异的领域内检索性能,能够捕捉查询的语义核心,并将其与投资风险、估值指标、市场情绪、增长前景等财务概念关联。这种领域适配性确保了证据片段的高精度检索,有助于分析基本面与股价的一致性,以及当前估值是否与预期增长相符。

基于多级检索技术,我们从四个维度进行上下文检索:通用财务表现、专业财务指标、市场情绪与风险、多查询整合(详见附录 B),为后续多智能体系统提供坚实的分析基础。

¹https://github.com/chroma-core/chroma

²https://huggingface.co/FinLang/finance-embeddings-investopedia

多智能体设计

单一模型方法存在明显缺陷:由于依赖通用方法且视角有限,分析结果往往流于表面。为克服这一局限,我们提出多智能体协同框架,通过五个专业领域智能体开展深度财务分析。每个智能体从各自领域视角出发,分析收益会议内容;随后,报告合成模块将各智能体的分析结果整合为统一、具有洞察力的投资咨询报告。

智能体提示词策略

每个智能体采用两级提示词结构:

  • 第一级(系统提示词)

    通过四个核心要素定义智能体的专业身份:(1)专业资质(如拥有 20 年经验的特许金融分析师 CFA);(2)权威背景(如在顶尖投资银行与对冲基金的任职经历);(3)明确使命(如辅助机构投资决策);(4)高质量标准(如输出机构级报告)。

  • 第二级(用户提示词)

    明确智能体的具体分析任务,包含四个要素:(1)指导系统性推理的分析框架;(2)规定格式与精度的技术要求;(3)说明报告结构与长度的输出规范;(4)整合 RAG 检索信息的上下文要求。

两级提示词结合,确保智能体既具备专业知识,又能高效执行任务。

智能体专业化分工

框架特意设置五个覆盖不同专业分析维度的智能体,构建全面分析体系,覆盖机构投资决策的关键方面。各智能体的核心设计原则如下(详细提示词见附录 C):

  • 专业收益分析师:专注于财务报表分析与业绩评估。核心职责包括评估收入质量、分析盈利能力及可持续性,以及审查净息差(NIM)、资产质量、资本充足率等关键财务指标。

  • 专业市场预测师:负责多时间维度的市场趋势预测。具体工作包括分析市场对收益报告的即时反应、评估基本面驱动因素的可持续性,以及基于战略发展预测长期市场定位。

  • 专业情感分析师:聚焦管理层可信度与投资者情绪评估。该智能体融入锚定效应、确认偏差等行为金融学理论,量化历史准确性、透明度评分等可测指标,并将心理因素转化为可执行的投资策略。

  • 专业估值分析师:专注于企业估值与投资建议。采用特定行业的贴现现金流模型(DCF),考虑信贷损失周期性、监管资本约束等因素;基于不同估值方法的可靠性进行动态权重分配,重点关注可验证的业务驱动因素。

  • 专业风险分析师:提供全面风险评估与头寸规模建议。评估信用风险、利率风险、流动性风险等各类风险因素,同时保持客观视角,确保风险评估具有现实性与可执行性。

报告合成

当专业智能体完成各自分析后,系统进入最终阶段:报告合成智能体整合各智能体输出,提取关键财务指标、处理情绪数据,生成综合报告。该报告随后将传入协同辩论机制进行进一步优化,以提升准确性与说服力。

安全协同辩论机制

三智能体协同

基于已有的多智能体辩论方法,我们引入三智能体安全协同辩论机制。该机制通过单轮优化提升报告质量,同时保留原始分析的核心结论,包含三个智能体:信任智能体(Trust Agent)、质疑智能体(Skeptic Agent)与主导智能体(Leader Agent),详细提示词见附录 D。

  • 信任智能体:通过提供支持性证据、强化论证逻辑、优化语言表达来完善原始报告。在此过程中,严格禁止改变观点倾向(如看空转看多)或修改 1 天 / 1 周 / 1 月期投资建议。

  • 质疑智能体:从风险管理视角优化报告。核心职责包括识别潜在风险因素、提出对冲策略、完善情景分析框架。

  • 主导智能体:整合信任智能体的证据补充与质疑智能体的风险分析,生成最终优化报告。最终内容保留原始报告的所有核心结论,同时采用更专业、更具说服力的语言,并提供更清晰的风险 - 收益分析。

算法设计

算法 1 概述了辩论框架的整体设计,采用 “安全优先” 原则,确保原始投资建议的完整性。算法整合多轮验证机制,通过结构化优化流程实现系统性质量提升。辩论过程仅进行单轮,有效避免多轮迭代中常见的主题偏移问题。参考相关研究中经过验证的最优轮次,我们对比了单轮与双轮辩论的效果,最终将最大辩论轮次设定为 1。整个过程仅涉及局部优化,不进行立场性重写。

需注意的是,该辩论机制仅适用于 “已有投资建议的报告需进一步优化” 的场景,不适用于从零生成报告或优化无明确立场结论的文本。

算法 1 安全协同辩论

输入:R₀(原始报告)、A(智能体分析结果)

输出:R∗(优化后报告)、L(辩论日志)

  1. 安全检查:验证 R₀结构若 ¬has_recommendations (R₀)(无投资建议),则返回 R₀

  2. 信任阶段:R₁ ← optimize (R₀, A)◦ 保留 R₀的核心要素◦ 强化证据支撑

  3. 质疑阶段:R₂ ← review (R₁, A)◦ 识别 R₁中的潜在漏洞◦ 保持结构完整性

  4. 主导阶段:R∗ ← synthesize (R₂, A)◦ 最大化说服力◦ 保留关键要素

  5. 最终检查:验证 R∗完整性若 core_compromised (R∗, R₀)(核心结论受损),则返回 R₀

  6. 返回 R∗、L

实验

实验设置

数据集

实验基于 Earnings2Insights 共享任务数据集开展,该任务聚焦于从收益会议记录生成投资指导。数据集包含两组收益会议记录:40 组来自 ECTSum,24 组为专业分析师报告。

模型与参数设置

我们使用五种当前主流 LLM 进行对比实验:GPT-4o、Gemini 2.5 Flash³、Llama 4 Maverick⁴、DeepSeek-R1、Claude Sonnet 4⁵。为确保可复现性与公平对比,所有模型采用相同生成参数:温度(temperature)0.6、最大输出长度 6500 token、top-p 采样 0.85、频率惩罚 0.1。所有模型使用统一的提示词模板与评估标准。

基线模型

为验证 FinDebate 的有效性,我们设置三组基线模型:

  1. 零样本推理(Zero-shot inference)

    不依赖额外信息,直接处理输入财务报告;

  2. 标准 RAG(Standard RAG)

    采用通用嵌入模型的传统 RAG 方法;

  3. 无辩论多智能体生成(Multi-agent w/o Debate)

    移除安全协同辩论机制的消融实验,用于评估辩论机制本身的贡献。

评估指标

为确保评估严谨且可行,我们从 ECTSum 数据集抽取 10 份报告,从新专业子集抽取 5 份报告,评估模型财务分析质量。参考 Goldsack et al.的框架,我们定义涵盖两个核心维度的评估协议,并使用 GPT-4o执行评估(详见附录 E):

  1. 文本质量(Textual Quality)

    包括可读性、语言抽象度、连贯性;

  2. 财务分析专业性(Financial Analysis Professionalism)

    包括财务要点覆盖度、背景信息充分性、管理层情绪传递准确性、未来展望分析深度、事实准确性。

每份报告采用 4 分制评分(1 = 差,4 = 优)。此外,我们还开展人工评估,重点关注报告能否有效指导并说服投资者做出正确决策,包括专家基于报告对未来 1 天、1 周、1 月投资选择(做多 / 做空)的平均准确率,以及对报告清晰度、逻辑性、说服力、可读性、实用性的平均李克特评分。

³https://deepmind.google/models/gemini/flash/⁴https://www.llama.com/models/llama-4/⁵https://www.anthropic.com/claude/sonnet/

结果与分析

表 1 展示了 FinDebate 与零样本推理、标准 RAG、无辩论多智能体生成三组基线模型的对比结果,图 2 与图 3 可视化了人工评估结果。与现有方法相比,FinDebate 在财务决策预测方面表现显著提升,在清晰度、逻辑性、说服力、实用性等维度均优于其他方案。

表 1 不同模型下 FinDebate 的性能对比(各模型最优性能已加粗标注)

图片

图片

图 2 财务决策准确性人工评估结果

图片

图 3 财务报告质量人工评估结果

FinDebate 框架在所有五个模型上均实现显著提升,性能提升幅度为 0.59-0.62,平均提升 20.4%,且经配对 t 检验验证,该提升具有统计显著性(p<0.001)。FinDebate 将性能从 “满意” 水平(约 3.0 分)提升至 “优秀” 水平(约 3.6 分),凸显了协同智能在复杂推理任务中的独特价值。这种跨模型一致性进一步证明了框架的通用性与技术优势。通过将 AI 驱动的财务分析从 “工具辅助” 升级为 “专业分析师级能力”,FinDebate 凭借其模型无关设计与结构化协同方法,为实际应用奠定了基础。

结论与未来工作

本文提出的 FinDebate 多智能体框架,整合了特定领域 RAG、专业分析智能体与安全协同辩论机制,可生成机构级财务报告,提供面向多时间维度的可执行投资建议,有效解决了现有财务 AI 应用的关键局限。未来,我们将把该框架扩展到更广泛的财务领域,开发动态置信度调整机制,并整合实时市场数据;同时,我们还计划将该系统迁移到其他应用场景中。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐