基础理论中等

什么是大模型的涌现能力？成因是什么？

#涌现能力#规模定律#评估指标

题目

如何定义和理解大模型的涌现能力（Emergent Abilities）？其可能成因有哪些？

涌现能力指模型在参数量/训练量未达到某一阈值时不具备，一旦跨越阈值便显著出现的能力，如复杂推理、多步数学、指令遵循等。表现为”能力随规模非线性跃升”。

常见涌现任务：多步算术推理、符号操作、真值判断、复杂指令遵循。

可能成因：

评估指标的非线性：很多涌现现象源于”全对才算对”的指标（如 exact match）。若改用连续指标（如 token 级别概率），能力提升往往是平滑的——这被称为”涌现的度量假象”。
规模定律（Scaling Law）：参数、数据、算力协同增长带来 loss 持续下降，某些能力在 loss 足够低时才显现。
训练目标与数据：大规模预训练语料中隐含的复杂模式，需足够容量才能拟合。
采样与解码：小模型可能”知道”但采样概率低，大模型把概率推过阈值后能力才显化。

面试加分点：能指出”涌现部分是评估指标造成的假象”会显著加分，体现对前沿讨论的理解。

出处：CSDN《大模型 LLM 面试八股含答案》。

内容来源

整理自 CSDN 大模型面经《大模型 LLM 面试八股》

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。