▰AI 求职面经库

← 返回题库

RAG 检索增强中等

RAGAS 评测体系：faithfulness 等指标怎么算？

#RAGAS#评测指标#faithfulness#context precision

题目

RAG 系统不能用”能回答”就上线，需系统评测。请说明 RAGAS 框架的核心指标及其计算方式。

参考答案

RAGAS（Retrieval-Augmented Generation Assessment）是当前 RAG 评估的事实标准，从检索与生成两端分别打分。

四大核心指标：

1. Faithfulness（忠实度）——生成侧

衡量：回答是否忠实于检索到的上下文，没有编造。
计算：把回答拆成若干陈述句，逐句判断是否可由上下文推导。
$\text{Faithfulness} = \frac{\text{可由上下文支持的陈述数}}{\text{总陈述数}}$
低分 = 幻觉（回答里有上下文没有的内容）。

2. Answer Relevancy（答案相关性）——生成侧

衡量：回答是否真正回答了问题，不跑题、不啰嗦。
计算：用 LLM 从回答反向生成若干”可能的问题”，与原问题算相似度。
相似度高 = 回答切题。
低分 = 跑题或答非所问。

3. Context Precision（上下文精度）——检索侧

衡量：检索到的上下文中，相关项排名是否靠前。
计算：对检索结果逐条标是否相关，算加权排名（类似 MAP）。
低分 = 相关文档被排在后面，无关文档靠前。

4. Context Recall（上下文召回）——检索侧

衡量：回答所需的全部信息是否都被检索到。
计算：把标准答案拆成陈述，看每条是否能在检索上下文中找到支持。
$\text{Recall} = \frac{\text{有上下文支持的答案陈述数}}{\text{总答案陈述数}}$
低分 = 检索漏了关键信息。

评测数据需求：

最简：只需 (问题, 回答, 检索上下文) 即可算 faithfulness 与 answer relevancy。
完整：还需 (标准答案) 才能算 context recall。

其他工具：

TruLens：类似 RAGAS，多了 RAG Triad（context relevance / groundedness / answer relevance）。
DeepEval：unittest 风格，便于 CI 集成。
自定义评测集：业务 badcase 收集 + 人工标注，最贴近真实效果。

工程实践：

上线前建评测集（100–500 题），跑 RAGAS 跑基线。
每次改动（换 embedding/调分块/加 rerank）都跑回归，防退化。
重点盯 faithfulness（防幻觉）与 context recall（防漏检）。

面试加分点：

指出 RAGAS 用 LLM 当裁判（LLM-as-judge），本身有成本与不确定性，需多次取平均。
“能回答 ≠ 回答对”——demo 阶段容易自我欺骗，必须用评测集量化。
评测集要覆盖：单跳/多跳、长文档/短文档、含表格/纯文本、易混淆问题等场景。

出处：头条《面试题：RAG 评估与 RAGAS 攻略——如何评价 RAG 项目效果》。

内容来源

整理自头条《面试题：RAG 评估与 RAGAS 攻略》

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。