llama.cpp

纯C/C++实现的高效LLM推理引擎，支持4-bit至8-bit量化，无需Python依赖即可在CPU和Apple Metal GPU上运行大模型。内存占用极低，普通笔记本即可运行7B-70B参数模型。是Ollama等工具的后端核心，推动了本地大模型民主化。

发布/成立	2023	保加利亚
官网	https://github.com/ggerganov/llama.cpp