题目
现代大模型(LLaMA、Qwen、DeepSeek 等)普遍采用 RoPE 旋转位置编码。请说明其原理,并解释它为何比绝对位置编码更利于长上下文外推。
参考答案
核心思想:RoPE 通过旋转矩阵把位置信息注入到 Q、K 向量中,使得两个 token 的注意力内积只取决于它们的相对距离,而非绝对位置。
数学形式:对位置 的查询向量 ,按二维一组切分,每组做角度为 的旋转:
其中 。K 同样旋转。于是注意力分数:
只依赖相对距离 ,这就实现了”用绝对位置编码形式表达相对位置”。
为何利于长上下文外推:
- 相对位置天然外推友好:训练时见过的相对距离范围有限,但相对距离的”语义”在长序列里仍成立(相邻 token 关系与位置无关)。
- 不引入额外参数:RoPE 是无参数变换(只用 ),不像可学习位置编码那样在训练长度外无定义。
- 配合缩放可外推:通过调整基频 (NTK-Aware)或位置插值(PI),可在不重训的情况下扩展到更长上下文。
- 衰减性:随着相对距离增大,旋转角度差变大,内积期望呈现衰减趋势,符合”远距离 token 关联弱”的先验。
与其他位置编码对比:
| 方案 | 类型 | 外推能力 | 代表模型 |
|---|---|---|---|
| 正弦/余弦 | 绝对 | 一般 | 原始 Transformer |
| 可学习 | 绝对 | 差(训练外无定义) | BERT、GPT-2 |
| ALiBi | 相对(注意力加偏置) | 强 | BLOOM |
| RoPE | 相对(旋转) | 强(配合缩放) | LLaMA、Qwen、DeepSeek |
面试加分点:能写出 这一关键化简,指出 RoPE 的精髓是”借绝对之形、行相对之实”;并提到 NTK/YaRN 等外推方案正是基于 RoPE 的旋转频率特性设计的。
出处:CSDN《AI 大模型面试:一听到面试问 RoPE 旋转位置编码,就脑壳疼》、苏剑林科学空间博客《Transformer 升级之路:博采众长的 RoPE》。
内容来源
整理自 CSDN《AI 大模型面试:一听到面试问 RoPE 旋转位置编码》及苏剑林科学空间博客(RoPE 原始出处)
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。