v
vLLM
vLLM推理引擎
简介
UC Berkeley开源的高吞吐量LLM推理引擎,核心创新是PagedAttention显存管理技术。KV缓存利用率接近100%,相比HuggingFace Transformers推理吞吐量提升最高24倍。支持连续批处理和多GPU张量并行,成为目前最流行的生产级推理引擎。
| 发布/成立 | 2023 | 美国 |
| 官网 | https://docs.vllm.ai/ |
人工智能产业链与技术栈全景图 v0.2.0 · 2026-05-14
UC Berkeley开源的高吞吐量LLM推理引擎,核心创新是PagedAttention显存管理技术。KV缓存利用率接近100%,相比HuggingFace Transformers推理吞吐量提升最高24倍。支持连续批处理和多GPU张量并行,成为目前最流行的生产级推理引擎。
| 发布/成立 | 2023 | 美国 |
| 官网 | https://docs.vllm.ai/ |