l
llama.cpp
llama.cpp
简介
纯C/C++实现的高效LLM推理引擎,支持4-bit至8-bit量化,无需Python依赖即可在CPU和Apple Metal GPU上运行大模型。内存占用极低,普通笔记本即可运行7B-70B参数模型。是Ollama等工具的后端核心,推动了本地大模型民主化。
| 发布/成立 | 2023 | 保加利亚 |
| 官网 | https://github.com/ggerganov/llama.cpp |
人工智能产业链与技术栈全景图 v0.2.0 · 2026-05-14
纯C/C++实现的高效LLM推理引擎,支持4-bit至8-bit量化,无需Python依赖即可在CPU和Apple Metal GPU上运行大模型。内存占用极低,普通笔记本即可运行7B-70B参数模型。是Ollama等工具的后端核心,推动了本地大模型民主化。
| 发布/成立 | 2023 | 保加利亚 |
| 官网 | https://github.com/ggerganov/llama.cpp |