RAG评估：G-Eval与其他LLM评估框架

G-Eval是一种创新的AI评估框架，利用大语言模型（如GPT-4）作为裁判来评估RAG系统的输出质量。它通过"思维链"技术生成详细评估步骤，再结合概率加权打分，显著提升了评估效率与准确性。相比传统的人工打分或BLEU等指标，G-Eval与人类判断高度一致，为AI系统评估提供了新范式。该框架已在摘要和对话生成等任务中展现出色表现，成为AI评估领域的重要突破。

古-月

932人浏览 · 2025-10-18 10:00:00

古-月 · 2025-10-18 10:00:00 发布

你是不是也和我一样，每天都在捣鼓着各种RAG（检索增强生成）应用？我们满怀激情地搭建管道、调试Prompt、优化检索，期待着它能像个“万事通”一样有问必答。但一个灵魂拷问随之而来：我们怎么知道它到底好不好？

过去，我们评估AI生成的文本，要么靠“人肉”——找一群人来打分，但这种方式成本高昂、耗时漫长，难以规模化。要么靠传统的自动化指标，比如BLEU、ROUGE，这些指标主要看生成文本和参考答案在字词上有多大重叠。对于需要一点创意和多样性的任务来说，它们就像一个只会对标准答案的刻板老师，经常给出和人类直觉相去甚远的分数。

然而，一个全新的范式正在崛起，那就是“LLM-as-a-Judge”，即“让大模型来当裁判”。核心思想很简单：既然GPT-4这样的大模型已经具备了强大的语言理解和推理能力，为什么不让它来评估我们RAG系统的输出质量呢？

在这个浪潮中，一个名为 G-Eval 的框架脱颖而出，它不仅是这个新范式的先行者，更以其出色的表现，证明了“让模型评模型”这条路，走得通！

G-Eval是什么？—— 不仅仅是“让GPT-4打个分”

初听G-Eval，你可能会觉得，这不就是写个Prompt，然后把RAG的回答丢给GPT-4，让它给个1到5分吗？如果你这么想，那就小看G-Eval了。它不是一次简单的调用，而是一套设计精巧、有章可循的结构化评估框架。

根据其开创性论文《G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment》，G-Eval的核心流程可以分为两大步：

第一步：生成评估“思维链”（Chain-of-Thought, CoT）

这正是G-Eval的精髓所在。你不需要给评估模型（比如GPT-4）一堆复杂的指令。你只需要提供一个简单的任务介绍和高级评估标准，比如“请评估这段摘要的连贯性”。 G-Eval会利用模型的“思维链”能力，首先生成一个详细、分步骤的评估计划。

这就好比你请一位美食评论家评价一道菜，你只说“尝尝这道菜怎么样”，他会先在脑中形成一套评价体系：“首先，我要看它的摆盘；其次，闻一下香气；然后，品尝主料和辅料的融合度；最后，感受它的余味。” G-Eval的CoT步骤，就是让LLM自己先把这个评价体系（即评估步骤）清晰地列出来。

第二步：“填表式”打分与概率加权

当LLM生成了详细的评估步骤后，它就会进入“裁判”模式。它会综合考虑你给的所有信息——用户的原始问题、RAG系统生成的答案、检索到的上下文，以及它自己在第一步生成的评估步骤——然后像填写一份评估表格一样，对每个维度进行分析，最终给出一个分数。

但G-Eval还有一手“秘密武器”：概率加权。最终的分数，并不仅仅是模型输出的那个数字（比如“4”分）。G-Eval会考察模型在生成这个分数时，输出各个分数（如“1”到“5”）的概率分布。最终得分是这些分数基于其生成概率的加权总和。这种方法可以有效减少大模型自身的一些评分偏见（比如总是倾向于给中间分），让结果更加稳定和可靠。

正是这套“先思考，再打分”的组合拳，让G-Eval在摘要和对话生成等任务上，与人类裁判的判断达到了惊人的高相关性，远超以往的各种自动化评估方法。

Prompt

G-Eval 的实验结果

从论文到代码：DeepEval如何将G-Eval发扬光大

点击链接RAG评估：G-Eval与其他LLM评估框架阅读原文

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大