← 返回题库
RAG 检索增强中等

RAGAS 评测体系:faithfulness 等指标怎么算?

#RAGAS#评测指标#faithfulness#context precision

题目

RAG 系统不能用”能回答”就上线,需系统评测。请说明 RAGAS 框架的核心指标及其计算方式。

参考答案

RAGAS(Retrieval-Augmented Generation Assessment)是当前 RAG 评估的事实标准,从检索生成两端分别打分。

四大核心指标

1. Faithfulness(忠实度)——生成侧

  • 衡量:回答是否忠实于检索到的上下文,没有编造。
  • 计算:把回答拆成若干陈述句,逐句判断是否可由上下文推导。
  • Faithfulness=可由上下文支持的陈述数总陈述数\text{Faithfulness} = \frac{\text{可由上下文支持的陈述数}}{\text{总陈述数}}
  • 低分 = 幻觉(回答里有上下文没有的内容)。

2. Answer Relevancy(答案相关性)——生成侧

  • 衡量:回答是否真正回答了问题,不跑题、不啰嗦。
  • 计算:用 LLM 从回答反向生成若干”可能的问题”,与原问题算相似度。
  • 相似度高 = 回答切题。
  • 低分 = 跑题或答非所问。

3. Context Precision(上下文精度)——检索侧

  • 衡量:检索到的上下文中,相关项排名是否靠前
  • 计算:对检索结果逐条标是否相关,算加权排名(类似 MAP)。
  • 低分 = 相关文档被排在后面,无关文档靠前。

4. Context Recall(上下文召回)——检索侧

  • 衡量:回答所需的全部信息是否都被检索到。
  • 计算:把标准答案拆成陈述,看每条是否能在检索上下文中找到支持。
  • Recall=有上下文支持的答案陈述数总答案陈述数\text{Recall} = \frac{\text{有上下文支持的答案陈述数}}{\text{总答案陈述数}}
  • 低分 = 检索漏了关键信息。

评测数据需求

  • 最简:只需 (问题, 回答, 检索上下文) 即可算 faithfulness 与 answer relevancy。
  • 完整:还需 (标准答案) 才能算 context recall。

其他工具

  • TruLens:类似 RAGAS,多了 RAG Triad(context relevance / groundedness / answer relevance)。
  • DeepEval:unittest 风格,便于 CI 集成。
  • 自定义评测集:业务 badcase 收集 + 人工标注,最贴近真实效果。

工程实践

  • 上线前建评测集(100–500 题),跑 RAGAS 跑基线。
  • 每次改动(换 embedding/调分块/加 rerank)都跑回归,防退化。
  • 重点盯 faithfulness(防幻觉)与 context recall(防漏检)。

面试加分点

  • 指出 RAGAS 用 LLM 当裁判(LLM-as-judge),本身有成本与不确定性,需多次取平均。
  • “能回答 ≠ 回答对”——demo 阶段容易自我欺骗,必须用评测集量化。
  • 评测集要覆盖:单跳/多跳、长文档/短文档、含表格/纯文本、易混淆问题等场景。

出处:头条《面试题:RAG 评估与 RAGAS 攻略——如何评价 RAG 项目效果》。

内容来源

整理自头条《面试题:RAG 评估与 RAGAS 攻略》

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。