vLLM

UC Berkeley开源的高吞吐量LLM推理引擎，核心创新是PagedAttention显存管理技术。KV缓存利用率接近100%，相比HuggingFace Transformers推理吞吐量提升最高24倍。支持连续批处理和多GPU张量并行，成为目前最流行的生产级推理引擎。

发布/成立	2023	美国
官网	https://docs.vllm.ai/