题目
要把大模型部署成线上服务,Triton、vLLM、TGI 等框架如何选型?
参考答案
主流服务化方案:
vLLM:
- 定位:开源高吞吐推理引擎,自带服务化(OpenAI 兼容 API)。
- 优势:PagedAttention + Continuous Batching,吞吐强;生态活跃;OpenAI API 兼容易迁移。
- 劣势:监控/多模型管理/灰度等企业特性弱。
- 适合:中小团队、快速上线、单模型高并发。
TGI(Text Generation Inference,HuggingFace):
- 定位:HF 出品,开箱即用,强对接 HF Hub。
- 优势:支持模型广(含特殊架构)、流式输出、量化集成、易部署(Docker)。
- 劣势:吞吐略逊 vLLM,定制化不如 vLLM 灵活。
- 适合:HF 生态用户、快速验证、多模型轮换。
Triton Inference Server(NVIDIA):
- 定位:通用推理服务器,支持多种框架(TensorRT/PyTorch/ONNX/自定义)。
- 优势:企业级特性强——多模型管理、模型版本与灰度、监控集成、GPU 多租户、TensorRT-LLM 加速。
- 劣势:学习曲线陡,配置复杂,需配合 TensorRT-LLM 才能发挥大模型加速。
- 适合:大规模生产、多模型管理、企业级 SLA、已有 NVIDIA 栈。
TensorRT-LLM:
- 不是独立服务,是推理加速库,常配合 Triton 部署。
- 极致延迟与吞吐,但需编译模型、调试复杂、灵活性低。
- 适合:对延迟极致敏感、可投入工程成本的大厂。
SGLang:
- 结构化生成与多轮对话优势(见 SGLang 题)。
- 适合 Agent / JSON 输出 / 多轮对话密集场景。
选型决策树:
| 需求 | 推荐 |
|---|---|
| 快速上线、单模型高并发 | vLLM |
| HF 生态、快速试多模型 | TGI |
| 企业级多模型管理、灰度、监控 | Triton + TensorRT-LLM |
| Agent / 结构化输出 | SGLang |
| 极致延迟、有工程团队 | Triton + TRT-LLM |
配套基础设施:
- 负载均衡:多副本前加 LB(如 Nginx/Envoy),按 GPU 利用率分流。
- 限流降级:令牌桶限流,过载时降级到小模型或排队。
- 监控:Prometheus + Grafana 监控 QPS/延迟/GPU 利用率/显存。
- 模型路由:按请求复杂度路由到不同大小模型,降本。
面试加分点:
- 指出”推理引擎”(vLLM/SGLang/TRT-LLM)与”服务化框架”(Triton/TGI)是两层——可组合(如 Triton 调度 + vLLM 后端)。
- 生产部署真正难点不在引擎选型,而在多模型管理、灰度、限流、监控、成本控制。
- 模型路由(按复杂度分流大小模型)是降本利器,常被忽视。
出处:各框架官方文档、推理服务化面经。
内容来源
整理自推理服务化面经与各框架文档
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。