← 返回题库
基础理论中等

为什么现代大模型都用 Decoder-only 架构?

#Decoder-only#架构对比#Scaling Law#训练效率

题目

现代主流大模型(GPT、LLaMA、Qwen、DeepSeek 等)几乎清一色采用 Decoder-only 架构,而非常初代 Transformer 的 Encoder-Decoder 或 BERT 的 Encoder-only。请说明原因。

参考答案

三种架构对比:

架构代表注意力训练目标适合
Encoder-onlyBERT双向MLM 完形填空理解类(分类、检索)
Encoder-DecoderT5、原始 Transformer编码双向+解码因果Seq2Seq翻译、摘要
Decoder-onlyGPT、LLaMA因果(单向)自回归下一 token 预测生成 + 通用

Decoder-only 胜出的核心原因

  1. 训练效率最高:每个 token 一次前向即可参与预测(用前面所有 token 预测自己),样本利用率高。Encoder 的 MLM 只有 15% token 被预测,样本效率低。
  2. Scaling Law 友好:研究表明在等计算预算下,Decoder-only 的 loss 下降最陡,扩展性最好。Scaling Law 主要在 Decoder-only 上验证。
  3. 统一架构 + 任务无关:自回归生成可统一所有任务(对话、翻译、摘要、推理都化为”续写”),无需为不同任务设计头。
  4. zero-shot/few-shot 涌现:Decoder-only 在规模放大后涌现出指令遵循与上下文学习能力,Encoder-only 不具备。
  5. 工程实现简单:单向掩码实现简单,KV Cache 推理友好。

理论解释(0/1 损失观点):Decoder-only 的因果掩码让表征学习更难(每个 token 只能看到前文),但这种”难”反而逼迫模型学到更通用的表示,泛化更好——类似”难样本训练”效应。

面试加分点

  • 能指出 Encoder-Decoder 在翻译等 Seq2Seq 任务上仍有优势,但通用大模型选 Decoder-only 是 Scaling Law 驱动的工程选择。
  • T5(Encoder-Decoder)也曾证明强,但被 Decoder-only 在规模放大后超越,体现”统一架构 + 大规模”的胜利。
  • MLA、GQA 等创新都是在 Decoder-only 基础上优化,进一步巩固其地位。

出处:CSDN《面试官问我:大模型为何都用 Decoder only 架构》、《【AI大模型面试真题】大模型为什么都倾向于 decoder-only》。

内容来源

整理自 CSDN《面试官问我:大模型为何都用 Decoder only 架构》及《【AI大模型面试真题】大模型为什么都倾向于 decoder-only》

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。