🧠 AI知识库

人工智能产业链与技术栈全景图 v0.2.0 · 2026-05-14

vLLM

vLLM推理引擎

🌍 海外 📦 模型库与引擎 推理引擎

简介

UC Berkeley开源的高吞吐量LLM推理引擎,核心创新是PagedAttention显存管理技术。KV缓存利用率接近100%,相比HuggingFace Transformers推理吞吐量提升最高24倍。支持连续批处理和多GPU张量并行,成为目前最流行的生产级推理引擎。

发布/成立2023美国
官网https://docs.vllm.ai/