GPU加速 on Text Matrix

llama.cpp：68.9k Stars 纯C/C++实现的高效LLM推理框架

Mon, 06 Apr 2026 22:45:00 +0800

学习目标

通过本文，你将全面掌握以下核心能力：

深入理解 llama.cpp 的项目定位和技术架构
学会在各种硬件上运行 LLM（CPU、GPU、Apple Silicon）
掌握 GGUF 格式模型的下载和使用
理解量化技术原理和不同量化级别的选择
学会构建 llama.cpp Server 并通过 API 调用
掌握性能优化技巧和内存管理

1. 项目概述

1.1 是什么

llama.cpp 是 Facebook LLaMA 架构的纯 C/C++ 移植版本，专门用于在 CPU 和 GPU 上高效推理 GGUF 格式的大语言模型（LLM）。它的核心特点是无需 GPU 即可运行 LLM，支持多种硬件架构。

Ollama：本地大模型运行完全指南

Mon, 06 Apr 2026 22:18:00 +0800

学习目标

通过本文，你将全面掌握以下核心能力：

深入理解 Ollama 的项目定位、核心概念和设计理念
掌握 Ollama 的安装、配置和基本使用方法
学会运行和管理各种大模型（Llama、Gemma、Mistral 等）
理解 Modelfile 自定义模型配置
掌握 OpenAI 兼容 API 服务搭建
理解 Agent 和 ReAct 模式
学会 GPU 加速配置和多模态模型使用
掌握 Ollama 与 LangChain 的集成方法

1. 项目概述

1.1 是什么

Ollama 是一个让你在本地机器上运行开源大模型的平台。它提供了简单的命令来下载、运行和管理 AI 模型，无需云服务，完全离线可用。