🧠 AI知识库

人工智能产业链与技术栈全景图 v0.2.0 · 2026-05-14

llama.cpp

llama.cpp

🌍 海外 📦 模型库与引擎 量化工具

简介

纯C/C++实现的高效LLM推理引擎,支持4-bit至8-bit量化,无需Python依赖即可在CPU和Apple Metal GPU上运行大模型。内存占用极低,普通笔记本即可运行7B-70B参数模型。是Ollama等工具的后端核心,推动了本地大模型民主化。

发布/成立2023保加利亚
官网https://github.com/ggerganov/llama.cpp