← 返回题库
训练与微调困难

预训练数据清洗流程?为什么去重和质量过滤重要?

#数据清洗#去重#质量过滤#数据配比

题目

“数据决定模型上限,算法只是逼近这个上限。“请说明大模型预训练数据清洗的典型流程,以及去重、质量过滤的重要性。

参考答案

预训练数据规模通常达万亿 token,质量直接决定模型能力。典型清洗流程:

1. 采集与基础过滤

  • 来源:Common Crawl、GitHub、书籍、维基、论文、代码、对话数据等。
  • 语言识别、URL 过滤(去黄赌毒)、HTML 解析提取正文。

2. 去重(Deduplication,关键)

  • 为何重要:重复数据会让模型”记住”而非”学会”,导致:
    • 记忆效应(逐字背诵训练文本,泛化差)
    • 评测污染(测试集混入训练集,分数虚高)
    • 算力浪费(重复样本等效多次训练同例)
  • 方法
    • 精确去重:hash 匹配(MD5/SHA)。
    • 模糊去重:MinHash + LSH(局部敏感哈希),找近似重复。
    • 文档级 + 段落级 + n-gram 级多粒度去重。

3. 质量过滤

  • 启发式规则:长度、词频、特殊符号比例、语言模型困惑度(用小模型过滤高 PPL 低质文本)。
  • 分类器过滤:训一个”高质量 vs 低质量”分类器(如 fastText),用维基/书籍为正例、随机网页为负例。
  • 安全过滤:去暴力、色情、PII(个人敏感信息)。

4. 数据配比(Mixing)

  • 不同来源数据按比例混合:网页(广度)、书籍(深度)、代码(推理)、学术(专业知识)、对话(指令)。
  • 配比决定模型能力倾向:多代码 → 强推理,多对话 → 强指令遵循。
  • 常见比例:网页 50–60%、书籍 15–20%、代码 10–20%、其他 10%。
  • 配比需随训练阶段调整(如后期加指令数据)。

5. 分词与课程

  • 用 BPE/SentencePiece 训分词器,词表 6.4 万–15 万。
  • 课程学习(curriculum):从易到难、从短到长逐步训练。

面试加分点

  • 引用”Chinchilla 最优”指出数据量与参数需匹配,但质量比数量更重要(Phi 系列用高质量数据打破 Scaling Law)。
  • 去重是”免费午餐”——去重后数据量略减但模型更强,是性价比最高的清洗步骤。
  • 数据配比是”玄学但有原则”——需大量消融实验,是各家大厂的核心 know-how。

出处:CSDN《2026 大模型面试圣经:预训练全流程深度解析》。

内容来源

整理自 CSDN《2026 大模型面试圣经:预训练全流程深度解析》

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。