← 返回题库
训练与微调中等

模型评测基准有哪些?数据污染如何识别?

#评测基准#MMLU#数据污染#内部评测

题目

请说明主流大模型评测基准及其适用范围,并解释数据污染问题与识别方法。

参考答案

主流评测基准

基准评测维度形式
MMLU多学科知识(57 个科目)多选题
CMMLU / C-Eval中文综合知识多选题
GSM8K小学数学推理应用题
MATH高中/竞赛数学解答题
HumanEval代码生成(Python)函数补全+单测
MBPP代码基础题函数实现
BBH综合推理(BIG-Bench Hard)多任务
HellaSwag / WinoGrande常识推理选择
TruthfulQA抗幻觉/事实性问答
AlpacaEval / MT-Bench指令跟随(主观)LLM 当裁判
Arena Hard对战 Elo 评分LLM 裁判

评测方式

  • zero-shot / few-shot:是否给示例。
  • CoT:是否要求思维链。
  • 客观题:exact match / accuracy。
  • 主观题:用更强 LLM 当裁判(GPT-4 as judge)或人工评估。

数据污染(Contamination):评测集混入训练数据,模型”背答案”而非真正学会,分数虚高。

污染来源

  • Common Crawl 抓到评测题原文。
  • GitHub 上有 HumanEval/MBPP 代码。
  • 论文/博客引用评测题。

识别方法

  1. n-gram 匹配:检查训练数据是否含评测题的连续 n-gram(如 10-gram)。
  2. 重写评测题:换个问法/数字,看分数是否骤降——降得越多说明越依赖记忆。
  3. 对比开闭卷:模型在”提示这是考试”vs”正常问”下表现差异。
  4. 时序切分:评测集只用训练截止后的新题(如 LiveBench 持续更新)。
  5. 私有评测集:不公开的内部题库,无法被爬。

工程实践

  • 大厂都有内部私有评测集,公开基准只作参考。
  • 上线前对比”通用能力是否下降”用 MMLU/GSM8K,对比”指令跟随”用 MT-Bench。
  • 评测要 run 多次取平均(采样有方差),用统一 prompt 模板避免提示词影响。

面试加分点

  • 指出公开榜单普遍注水——数据污染 + 选择性报告 + 调 prompt,故大厂重内部评测。
  • LiveBench、FreshBench 等持续更新基准是抗污染的新方向。
  • 评测本身是难题:“测什么、怎么测、信不信”三问同等重要。

出处:HELM/MMLU 论文、大模型评测面经。

内容来源

整理自大模型评测面经与 HELM/MMLU 论文

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。