前沿专题中等

推理模型（如 o1 类）与传统 LLM 的区别？

#推理模型#思维链#测试时计算#强化学习对齐

题目

以 OpenAI o1、DeepSeek-R1 为代表的”推理模型”与传统 LLM 有何本质区别？其训练与推理各有何特点？

本质区别：传统 LLM 是”快思考”——一次前向直接出答案；推理模型是”慢思考”——在回答前先生成**长思维链（Chain-of-Thought）**进行多步推理，再给出最终答案。

核心机制：测试时计算（Test-Time Compute）

训练特点：

推理特点：

对比表：

面试加分点：能指出推理模型用”可验证奖励”绕开了 RLHF 中昂贵的人工标注与奖励模型偏差，是 2025–2026 的重要范式转向；并点明其代价是推理成本上升，需按场景选用。

出处：前沿专题面经、推理模型（o1 / DeepSeek-R1）相关讨论。

内容来源

整理自前沿专题面经与推理模型相关讨论

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。