题目
请列举当前主流的开源大模型体系,并解释 prefix LM 与 causal LM 的区别,给出实际应用案例。
参考答案
主流开源模型体系(按阵营):
- LLaMA 系(Meta):LLaMA 2 / 3 / 3.1,生态最广,衍生模型众多(Alpaca、Vicuna 等)。
- Qwen 系(阿里):Qwen / Qwen2 / Qwen3,中英双语能力强,覆盖 0.5B–百B 多规格。
- GLM 系(智谱):GLM-4 / GLM-4.5 / ChatGLM,中文表现优异。
- DeepSeek 系:DeepSeek-V2 / V3 / R1,MoE 架构、推理能力强,性价比高。
- Mistral / Mixtral 系:Mistral 7B、Mixtral MoE。
- Gemma 系(Google):Gemma / Gemma 2,轻量化。
prefix LM 与 causal LM 区别:
| 维度 | Causal LM(自回归) | Prefix LM(前缀) |
|---|---|---|
| 注意力掩码 | 下三角因果掩码,每个 token 只能看到前面 | 前缀部分双向可见,生成部分因果 |
| 任务适配 | 生成任务(GPT 系) | 理解+生成(如 T5、GLM) |
| 代表模型 | LLaMA、Qwen、GPT | T5、GLM、UL2 |
实际应用案例:GPT/LLaMA 采用 causal LM,擅长开放生成;GLM 采用 prefix LM,在理解与生成兼顾的场景(如对话、问答)表现均衡。
出处:CSDN《大模型 LLM 面试八股含答案》、开源仓库
wdndev/llm_interview_note。
内容来源
整理自 CSDN《大模型 LLM 面试八股含答案》及开源仓库 wdndev/llm_interview_note
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。