Llama.cpp on Text Matrix

llama.cpp：68.9k Stars 纯C/C++实现的高效LLM推理框架

Mon, 06 Apr 2026 22:45:00 +0800

学习目标

通过本文，你将全面掌握以下核心能力：

深入理解 llama.cpp 的项目定位和技术架构
学会在各种硬件上运行 LLM（CPU、GPU、Apple Silicon）
掌握 GGUF 格式模型的下载和使用
理解量化技术原理和不同量化级别的选择
学会构建 llama.cpp Server 并通过 API 调用
掌握性能优化技巧和内存管理

1. 项目概述

1.1 是什么

llama.cpp 是 Facebook LLaMA 架构的纯 C/C++ 移植版本，专门用于在 CPU 和 GPU 上高效推理 GGUF 格式的大语言模型（LLM）。它的核心特点是无需 GPU 即可运行 LLM，支持多种硬件架构。

BitNet：微软 1-bit LLM 推理框架完全指南

Mon, 06 Apr 2026 21:21:00 +0800

学习目标

通过本文，你将全面掌握以下核心能力：

深入理解 BitNet 的项目定位、1-bit LLM 原理和技术架构
掌握在 CPU 和 GPU 上构建和运行 BitNet 的方法
学会使用官方预训练模型和量化工具
理解 I2_S、TL1、TL2 等量化内核的技术细节
掌握性能基准测试和优化技巧
理解与 llama.cpp 的关系和差异化定位

1. 项目概述

1.1 是什么

BitNet 是微软官方发布的 1-bit LLM 推理框架，核心理念是让 1-bit 大语言模型（如 BitNet b1.58）能够在 CPU 和 GPU 上实现快速、无损的推理。

Quantization 量化技术完全指南：从原理到 LLM 实战

Sun, 29 Mar 2026 23:28:00 +0800

Quantization 量化技术完全指南：从原理到 LLM 实战

目标读者：想深入理解量化技术、压缩大模型体积的开发者 核心问题：如何将 159GB 的大模型压缩到能在笔记本运行，同时只损失 5-10% 精度？