▰AI 求职面经库

← 返回题库

推理与部署中等

大模型服务化部署：Triton / vLLM / TGI 怎么选？

#服务化框架#Triton#TGI#选型

题目

要把大模型部署成线上服务，Triton、vLLM、TGI 等框架如何选型？

参考答案

主流服务化方案：

vLLM：

定位：开源高吞吐推理引擎，自带服务化（OpenAI 兼容 API）。
优势：PagedAttention + Continuous Batching，吞吐强；生态活跃；OpenAI API 兼容易迁移。
劣势：监控/多模型管理/灰度等企业特性弱。
适合：中小团队、快速上线、单模型高并发。

TGI（Text Generation Inference，HuggingFace）：

定位：HF 出品，开箱即用，强对接 HF Hub。
优势：支持模型广（含特殊架构）、流式输出、量化集成、易部署（Docker）。
劣势：吞吐略逊 vLLM，定制化不如 vLLM 灵活。
适合：HF 生态用户、快速验证、多模型轮换。

Triton Inference Server（NVIDIA）：

定位：通用推理服务器，支持多种框架（TensorRT/PyTorch/ONNX/自定义）。
优势：企业级特性强——多模型管理、模型版本与灰度、监控集成、GPU 多租户、TensorRT-LLM 加速。
劣势：学习曲线陡，配置复杂，需配合 TensorRT-LLM 才能发挥大模型加速。
适合：大规模生产、多模型管理、企业级 SLA、已有 NVIDIA 栈。

TensorRT-LLM：

不是独立服务，是推理加速库，常配合 Triton 部署。
极致延迟与吞吐，但需编译模型、调试复杂、灵活性低。
适合：对延迟极致敏感、可投入工程成本的大厂。

SGLang：

结构化生成与多轮对话优势（见 SGLang 题）。
适合 Agent / JSON 输出 / 多轮对话密集场景。

选型决策树：

需求	推荐
快速上线、单模型高并发	vLLM
HF 生态、快速试多模型	TGI
企业级多模型管理、灰度、监控	Triton + TensorRT-LLM
Agent / 结构化输出	SGLang
极致延迟、有工程团队	Triton + TRT-LLM

配套基础设施：

负载均衡：多副本前加 LB（如 Nginx/Envoy），按 GPU 利用率分流。
限流降级：令牌桶限流，过载时降级到小模型或排队。
监控：Prometheus + Grafana 监控 QPS/延迟/GPU 利用率/显存。
模型路由：按请求复杂度路由到不同大小模型，降本。

面试加分点：

指出”推理引擎”（vLLM/SGLang/TRT-LLM）与”服务化框架”（Triton/TGI）是两层——可组合（如 Triton 调度 + vLLM 后端）。
生产部署真正难点不在引擎选型，而在多模型管理、灰度、限流、监控、成本控制。
模型路由（按复杂度分流大小模型）是降本利器，常被忽视。

出处：各框架官方文档、推理服务化面经。

内容来源

整理自推理服务化面经与各框架文档

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。