题目
请说明 Transformer 中 Self-Attention 的计算过程,并解释多头注意力(Multi-Head Attention)的作用。
参考答案
Self-Attention 计算流程:
- 输入序列 经三个线性投影得到 Q(查询)、K(键)、V(值):
- 计算注意力得分:( 缩放防止点积过大)。
- softmax 归一化得到权重:。
- 加权求和:。
完整公式:
多头注意力(MHA)的作用:
- 将 Q/K/V 沿深度切分成 个头,每个头独立做注意力,再拼接投影。
- 不同头可关注不同子空间的信息(如语法、语义、共指等),增强模型表达力。
- 计算量与单头相近(总维度不变),但表征更丰富。
位置编码:由于 Self-Attention 本身无位置感知,需注入位置编码(正弦、可学习、RoPE 旋转位置编码等)。现代大模型多采用 RoPE,因其对长上下文外推更友好。
出处:牛客网大模型面经、开源仓库
wdndev/llm_interview_note。
内容来源
整理自牛客网大模型面经及开源仓库 wdndev/llm_interview_note
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。