题目
如何定义和理解大模型的涌现能力(Emergent Abilities)?其可能成因有哪些?
参考答案
涌现能力指模型在参数量/训练量未达到某一阈值时不具备,一旦跨越阈值便显著出现的能力,如复杂推理、多步数学、指令遵循等。表现为”能力随规模非线性跃升”。
常见涌现任务:多步算术推理、符号操作、真值判断、复杂指令遵循。
可能成因:
- 评估指标的非线性:很多涌现现象源于”全对才算对”的指标(如 exact match)。若改用连续指标(如 token 级别概率),能力提升往往是平滑的——这被称为”涌现的度量假象”。
- 规模定律(Scaling Law):参数、数据、算力协同增长带来 loss 持续下降,某些能力在 loss 足够低时才显现。
- 训练目标与数据:大规模预训练语料中隐含的复杂模式,需足够容量才能拟合。
- 采样与解码:小模型可能”知道”但采样概率低,大模型把概率推过阈值后能力才显化。
面试加分点:能指出”涌现部分是评估指标造成的假象”会显著加分,体现对前沿讨论的理解。
出处:CSDN《大模型 LLM 面试八股含答案》。
内容来源
整理自 CSDN 大模型面经《大模型 LLM 面试八股》
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。