01 — 岗位职责
- ▹大模型推理服务化(vLLM / TensorRT-LLM / SGLang)
- ▹量化压缩(INT8 / INT4 / AWQ / GPTQ)
- ▹动态批处理与显存调度优化
- ▹训练集群性能优化与算子加速
- ▹推理成本与延迟的持续优化
02 — 能力要求
C++ / CUDAvLLM / PagedAttention 原理量化算法与误差分析分布式系统与 Kubernetes性能剖析(nsight / py-spy)
03 — 面试考点
PagedAttention 原理
KV Cache 机制与显存占用
量化误差与精度损失
Continuous Batching
推理吞吐与延迟优化
04 — 岗位速写
AI Infra 被称为”2026 最值钱的技能”——它是在模型压缩、量化、推理加速(vLLM、TensorRT)上把成本降低 70% 以上的桥梁型角色。一句话:AI Infra 让 AI 从实验室走向生产环境。
面试聚焦推理引擎的底层原理:PagedAttention、KV Cache、量化误差、Continuous Batching,以及对吞吐与延迟的极致优化。