基础理论中等

Transformer 的注意力机制原理？Self-Attention 如何计算？

#Self-Attention#Q/K/V 计算#多头注意力#位置编码

题目

请说明 Transformer 中 Self-Attention 的计算过程，并解释多头注意力（Multi-Head Attention）的作用。

Self-Attention 计算流程：

完整公式： $\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

多头注意力（MHA）的作用：

位置编码：由于 Self-Attention 本身无位置感知，需注入位置编码（正弦、可学习、RoPE 旋转位置编码等）。现代大模型多采用 RoPE，因其对长上下文外推更友好。

出处：牛客网大模型面经、开源仓库 wdndev/llm_interview_note。

内容来源

整理自牛客网大模型面经及开源仓库 wdndev/llm_interview_note

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。