基准(Benchmark)

  1. RGB:[9]

RGB 基准的数据是从最新的新闻文章中生成问答实例,并通过搜索引擎检索外部文档以模拟真实世界的检索增强生成场景。该基准提供了英文和中文版本。RGB 评估 LLM 的四项关键能力:

  • 噪声鲁棒性(Noise Robustness): 评估模型在处理包含无关或噪声信息的文档时,能否仍然提取出有用信息。

  • 否定拒绝(Negative Rejection): 评估当检索到的文档不包含答案时,模型能否识别并拒绝生成误导性内容。

  • 信息集成(Information Integration): 评估模型能否在回答复杂问题时,从多个文档中整合信息。

  • 反事实鲁棒性(Counterfactual Robustness): 评估模型能否识别并处理包含错误信息的文档。

开源地址:

 更多资源参考,2img.ai

2. RECALL:[10]

RECALL 是由北京大学和腾讯微信 AI 团队联合开发的评估基准,专门用于评估大型语言模型(LLMs)在面对外部反事实知识时的稳健性。该基准包含两个主要任务:问答(Question Answering, QA)和文本生成(Text Generation)。在每个任务中,RECALL 提供一个包含反事实信息的上下文,模型需要在提供的正确和错误答案两个选项中进行选择。文中的结论:模型容易被错误的上下文误导,当其内在知识与提供的上下文内容相矛盾时,更容易产生质量较低的回复。通过提示词优化和推理干预等方法进行了尝试,但这些方法无法有效解决该问题。

  1. CRUD-RAG [11]

CRUD-RAG 是由中国科学技术大学等发布的RAG中文基准数据集,用于全面评估RAG的性能。现有的评估基准大多集中于问答任务,忽视了其他的 RAG 应用场景。CRUD-RAG 基准基于 CRUD 操作(Create、Read、Update、Delete),将 RAG 的应用场景划分为四种类型:

  • Create(创建): 针对需要生成原创、多样化内容的场景,例如诗歌、故事或代码生成。任务对应为文本续写任务,模型需要基于输入文本生成符合语境的延续内容。

  • Read(读取): 涉及在知识密集型场景中回答复杂问题,例如问答、对话和推理任务。任务包括单文档和多文档问答,评估模型在知识检索和理解上的表现。

  • Update(更新): 关注修正和纠正已有文本中的错误或不一致性,例如拼写、语法或事实错误的校正。任务为幻觉修改,模型需要基于检索到的外部内容对原始文本中的错误进行修正。

  • Delete(删除): 涉及从庞大文本中提炼关键信息以生成简洁摘要,例如文本总结或简化。任务为多文档摘要生成,模型需要从多个相关文档中提炼关键信息生成简明摘要。

开源地址:https://github.com/IAAR-Shanghai/CRUD_RAG

  1. CRAG [12]

CRAG 是一个综合的检索增强生成 (RAG) 基准测试集,由 Meta 提出,专门用于评估 RAG 系统在应对事实问答(QA)任务时的性能。CRAG 的设计弥补现有 RAG 数据集在多样性和动态性方面的不足。该基准测试集包含 4,409 个问答对,覆盖五个领域(金融、体育、音乐、电影和开放领域)和八个问题类别(不同维度)。CRAG 还模拟了网络搜索和知识图谱(KG)搜索的环境,通过模拟 API 为每个问答对提供来自搜索引擎和知识图谱的外部信息。

问题类型 定义
Simple 询问不太可能随着时间的推移而改变的简单事实的问题,例如一个人的出生日期和一本书的作者。
Simple w. Condition 询问一些给定条件下的简单事实的问题,例如特定日期的股票价格和导演最近拍摄的特定类型的电影。
Set 期望一组实体或对象作为答案的问题(例如,“南半球有哪些大陆? ”)。
Comparison 比较两个实体的问题(例如,“谁开始表演更早,阿黛尔还是艾德·希兰? ”)。
Aggregation 需要聚合检索结果才能回答的问题(例如,“梅丽尔·斯特里普赢得了多少个奥斯卡奖? ”)。
Multi-hop 需要链接多条信息来组成答案的问题(例如,“谁在李安的最新电影中扮演角色? ”)。
Post-processingheavy 需要推理或处理检索到的信息以获得答案的问题(例如,“瑟古德·马歇尔担任最高法院法官多少天? ”)。
False Premise 带有错误介词或假设的问题(例如,“泰勒·斯威夫特在转向流行音乐之前,她的说唱专辑的名字是什么? ”(泰勒·斯威夫特尚未发行任何说唱专辑))。

框架

  1. RAGAS[3]

RAGAS 是一个专为评估 Retrieval Augmented Generation (RAG) pipelines 而设计的开源框架。RAG 包括三个关键部分:查询、检索到的上下文和生成的回答。因此,RAGAS 关注三个主要评估指标:忠实度(Faithfulness)、答案相关性(Answer Relevance)和上下文相关性(Context Relevance)。忠实度衡量生成的回答是否忠实于提供的上下文;答案相关性评估回答与输入查询的相关性;而上下文相关性则考察检索到的上下文与输入查询的匹配程度。

开源地址:https://github.com/explodinggradients/ragas

  1. ARES[13]

ARES框架只需要数量级很小的一部分人工标注集(用于反映对应的领域内的问题),即可自动生成用于评估测试的问题。具体的判断步骤如下:

  • 通过LLM生成有关语料的Query-Answer序列对

  • 构建用于评估上述三个指标的model:使用上述的序列对分别对一个小的LM进行微调,这里的LM执行的都是判断工作,判断样本属于指标的正例还是反例。

  • 使用评估模型:使用PPI提高评估效果,并根据少部分的人工标注集给出置信区间。

开源地址:stanford-futuredata/ARES (github.com)

  1. AUTO-RAG-EVAL[14]

该框架完全不需要依赖任何人工标注集,能够自动生成用于评估的测试问题,大大降低了评估的成本和时间消耗。通过使用项目反应理论(Item Response Theory, IRT),该方法可以自动优化测试问题集。IRT 通过对测试题目的质量和信息量进行评估,不断剔除对模型能力区分度不高的题目,使得剩下的题目能够更准确地反映模型在特定任务上的表现。在论文中,作者根据不同的认知能力对问题类型进行了划分,采用了布鲁姆修订的分类法(Bloom's Taxonomy)对问题进行分类。不同类型的问题具有不同的认知复杂度,从而在不同的能力水平上能够提供不同的信息量,为评估 RAG 系统提供了更细粒度的评价。不足的是,这里面生成的都是选择题。

开源地址:https://github.com/amazon-science/auto-rag-eval

4. TruLens[15]

TruLens 是由 TruEra 公司开发的一款开源工具,用于帮助用户评估基于大型语言模型 (LLM) 应用程序的质量和有效性。通过使用反馈函数,TruLens 能够以编程方式评估输入、输出和中间结果的质量,从而加快和扩大实验评估的范围。这使得 TruLens 能够应用于多种场景,包括问答系统、检索增强生成(RAG),以及基于agent的应用。和RAGAS一样,也是评估了忠实度、答案相关性和上下文相关性。

开源地址:https://github.com/truera/trulens

  1. RAGEval[16]

RAGEval 是由清华大学、北京师范大学、中国科学院大学和东北大学联合开发的开源框架,专门用于评估检索增强生成(RAG)系统在特定场景下的表现。RAGEval 从少量领域特定文档中总结出一个 schema(模式),捕捉领域内的关键信息,并据此生成不同配置的多样化文档用于后续问题的生成。此外,RAGEval 引入了三个新评估指标,以全面评估 LLM 生成的回答质量,包括:

  • 完整性(Completeness):评估答案是否涵盖了问题的所有关键方面,确保回答的全面性。

  • 幻觉(Hallucination):检测答案中是否包含虚假或不准确的信息,确保答案的真实性。

  • 不相关性(Irrelevance):评估答案中是否包含不相关的信息,确保回答的集中和相关性。

开源地址:https://github.com/OpenBMB/RAGE

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐