LLM推理 on Text Matrix

LLM推理 on Text Matrixhttps://155a386f.text-matrix.pages.dev/tags/llm%E6%8E%A8%E7%90%86/Recent content in LLM推理 on Text MatrixHugozh-cnWed, 08 Apr 2026 23:16:10 +0800llama.cpp：68.9k Stars 纯C/C++实现的高效LLM推理框架https://155a386f.text-matrix.pages.dev/posts/tech/llama-cpp-gogu-gpu-llm-inference-guide/Mon, 06 Apr 2026 22:45:00 +0800https://155a386f.text-matrix.pages.dev/posts/tech/llama-cpp-gogu-gpu-llm-inference-guide/<h2 id="学习目标">学习目标</h2> <p>通过本文，你将全面掌握以下核心能力：</p> <ul> <li>深入理解 llama.cpp 的项目定位和技术架构</li> <li>学会在各种硬件上运行 LLM（CPU、GPU、Apple Silicon）</li> <li>掌握 GGUF 格式模型的下载和使用</li> <li>理解量化技术原理和不同量化级别的选择</li> <li>学会构建 llama.cpp Server 并通过 API 调用</li> <li>掌握性能优化技巧和内存管理</li> </ul> <hr> <h2 id="1-项目概述">1. 项目概述</h2> <h3 id="11-是什么">1.1 是什么</h3> <p><strong>llama.cpp</strong> 是 Facebook LLaMA 架构的纯 C/C++ 移植版本，专门用于在 CPU 和 GPU 上高效推理 GGUF 格式的大语言模型（LLM）。它的核心特点是<strong>无需 GPU 即可运行 LLM</strong>，支持多种硬件架构。</p>LiteRT-LM：Google 生产级边缘设备 LLM 推理框架完全指南https://155a386f.text-matrix.pages.dev/posts/tech/litert-lm-google-edge-llm-inference-guide/Mon, 06 Apr 2026 20:00:00 +0800https://155a386f.text-matrix.pages.dev/posts/tech/litert-lm-google-edge-llm-inference-guide/<h1 id="litert-lmgoogle-生产级边缘设备-llm-推理框架完全指南">LiteRT-LM：Google 生产级边缘设备 LLM 推理框架完全指南</h1> <h2 id="学习目标">学习目标</h2> <p>通过本文，你将全面掌握以下核心能力：</p> <ul> <li>深入理解 LiteRT-LM 的项目定位与边缘 AI 推理的技术价值</li> <li>掌握 LiteRT-LM 的核心特性、技术架构和支持的模型</li> <li>学会在 Android、iOS、Web、桌面端和 IoT 设备上部署 LLM</li> <li>掌握 LiteRT-LM 的多语言 API（Kotlin、Python、C++、Swift）</li> <li>理解 Tool Use / Function Calling 在边缘设备上的实现方式</li> <li>学会使用 LiteRT-LM CLI 进行快速原型开发和测试</li> <li>掌握从源码编译和定制优化的方法</li> <li>了解 Gemma、Llama、Phi-4、Qwen 等模型的部署实践</li> </ul> <hr> <h2 id="1-项目概述">1. 项目概述</h2> <h3 id="11-是什么">1.1 是什么</h3> <p><strong>LiteRT-LM</strong> 是 Google AI Edge 推出的<strong>生产级、高性能、开源边缘设备 LLM 推理框架</strong>。它专为在资源受限的边缘设备上部署大型语言模型而设计，覆盖 Android、iOS、Web、桌面端和 IoT（如树莓派）等全平台。</p>