推理与部署困难

vLLM 的 PagedAttention 原理是什么？

#PagedAttention#KV Cache 分页#显存碎片#吞吐优化

题目

vLLM 凭 PagedAttention 成为生产环境大模型推理首选方案，请说明其原理及解决的痛点。

痛点：传统推理中，每个请求的 KV Cache 需连续预分配最大长度显存，导致两类浪费——

实测显存利用率常低于 30%，严重限制吞吐。

PagedAttention 原理（借鉴操作系统虚拟内存分页）：

带来的收益：

面试加分点：

对比 TensorRT-LLM：TRT-LLM 用 in-flight batching + 显式管理，PagedAttention 用分页，思路不同。
PagedAttention 的注意力计算需在 kernel 内按块表索引，实现上是自定义 CUDA kernel。
vLLM 还支持 prefix caching（共享系统提示词的 KV），进一步省算力。

出处：vLLM 实战文章、推理部署面试题（CSDN《大模型最新面试题系列：模型部署》）。

内容来源

整理自 vLLM 实战文章与推理部署面经

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。