▰AI 求职面经库

← 返回题库

推理与部署困难

SGLang 的 RadixAttention 原理？与 vLLM 区别？

#RadixAttention#KV 复用#结构化生成#框架对比

题目

SGLang 凭 RadixAttention 在结构化生成与多轮对话场景表现突出。请说明其原理，以及与 vLLM 的区别。

参考答案

RadixAttention 原理：用**基数树（Radix Tree）**管理 KV Cache，自动识别并复用公共前缀。

传统推理：每个请求的 KV Cache 独立维护，即使多个请求共享相同系统提示词，也各自重复计算。
RadixAttention：把已计算的 KV Cache 按前缀组织成基数树。新请求到达时，匹配最长公共前缀，复用其 KV，只为新 token 计算。
命中即省去整段 prefill 计算，TTFT（首 token 延迟）大幅下降。

典型受益场景：

多轮对话：每轮都带完整历史，前缀高度重合。
few-shot：多个示例共享相同前缀。
Agent：相同系统提示 + 不同工具结果。
结构化生成：相同 schema 反复用。

SGLang 的另两大支柱：

结构化解码（Structured Decoding）：原生支持 JSON/正则约束生成，用压缩有限状态机加速，比逐 token 校验快得多。输出 JSON 不再”撞运气”。
DSL 编程：提供前端 DSL 表达复杂控制流（分支、并行、状态），编译为高效后端执行。

与 vLLM 对比：

维度	vLLM	SGLang
KV 管理	PagedAttention（分页）	RadixAttention（基数树前缀复用）
前缀复用	支持（prefix caching）但需手动开	自动、原生
结构化输出	需配合 outlines 等	原生压缩 FSM，极快
通用吞吐	强	强（结构化场景更优）
多轮对话	一般	显著优势
生态成熟度	最广	快速增长

实践选择：

通用问答/单轮 → vLLM 生态成熟。
多轮对话、结构化输出（JSON Agent）、Agent 工作流 → SGLang 更优。
二者都在快速迭代，互相借鉴（vLLM 也加了 RadixAttention 风格的 prefix cache）。

面试加分点：

指出 RadixAttention 与 PagedAttention 不互斥——前者管”前缀复用”，后者管”显存碎片”，可叠加。
结构化生成是 Agent 落地的关键痛点（输出格式不稳定），SGLang 的 FSM 方案是工程突破。
SGLang 由 LMSys（做 Chatbot Arena 那个团队）出品，对真实服务化场景理解深刻。

出处：CSDN《5 分钟部署 SGLang 推理服务，一键加速大模型结构化生成》、51CTO《SGLang：面向大模型服务化的高吞吐推理框架综述》。

内容来源

整理自 CSDN《5 分钟部署 SGLang 推理服务》及 51CTO《SGLang 综述》

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。