使用Llama.cpp在家中私密运行大语言模型
创始人
2025-08-26 23:00:49
0

虽然训练大语言模型可能需要数百万甚至数十亿美元的基础设施,但这些劳动成果往往比你想象的更容易获得。许多最新发布的模型,包括阿里巴巴的Qwen 3和OpenAI的gpt-oss,甚至可以在普通PC硬件上运行。

如果你真的想了解大语言模型的工作原理,在本地运行一个模型是必不可少的。它还能让你无限制地访问聊天机器人,无需为优先访问权付费,也不会将数据发送到云端。虽然有更简单的工具,但在命令行中使用Llama.cpp能提供最佳性能和最多选项,包括将工作负载分配给CPUGPU的能力,以及量化(即压缩)模型以实现更快输出的功能。

在底层,许多在PC或Mac上本地运行模型的最受欢迎框架,包括Ollama、Jan或LM Studio,实际上都是基于Llama.cpp开源基础构建的包装器,目标是简化复杂性并改善用户体验。

虽然这些便利功能让新手运行本地模型不那么令人生畏,但在性能和功能方面往往还有不足之处。

截至本文撰写时,Ollama仍不支持Llama.cpp的Vulkan后端,该后端提供更广泛的兼容性和通常更高的生成性能,特别是对AMD GPU和APU。虽然LM Studio确实支持Vulkan,但它缺乏对英特尔SYCL运行时和GGUF模型创建的支持。

在这个实践指南中,我们将探索Llama.cpp,包括如何构建和安装应用程序、在GPU和CPU上部署和服务大语言模型、生成量化模型、最大化性能以及启用工具调用。

**前提条件:**

Llamas.cpp几乎可以在任何设备上运行,包括树莓派。然而,为了获得最佳体验,我们建议使用至少16GB系统内存的机器。

虽然不是必需的,但来自英特尔、AMD或英伟达的专用GPU将大大提高性能。如果你确实有GPU,在开始之前需要确保系统上安装了最新的驱动程序。

对大多数用户来说,安装Llama.cpp就像下载ZIP文件一样简单。

虽然Llama.cpp可能可以从apt、snap或WinGet等包管理器获得,但它更新非常频繁,有时一天多次,所以最好从官方GitHub页面获取最新的预编译二进制文件。

二进制文件可用于macOS、Windows和Ubuntu上基于Arm64和x86-64主机CPU的各种加速器和框架。

如果你不确定选择哪个,这里有一个快速参考表:

英伟达:CUDA

英特尔Arc/Xe:Sycl

AMD:Vulkan或HIP

高通:OpenCL-Adreno

苹果M系列:macOS-Arm64

或者,如果你没有支持的GPU,请为你的操作系统和处理器架构选择相应的"CPU"构建版本。请注意,集成GPU在Llama.cpp中表现不稳定,由于内存带宽限制,即使能够工作,性能也可能不如基于CPU的推理。

下载Llama.cpp后,将文件夹解压到主目录以便访问。

**部署你的第一个模型**

与LM Studio或Ollama等其他应用不同,Llama.cpp是一个命令行工具。要访问它,你需要打开终端并导航到我们刚下载的文件夹。注意,在Linux上,二进制文件位于build/bin目录下。

我们可以运行以下命令在设备上下载并运行Qwen3-8B的4位量化版本:

```

./llama-CLI-hfr bartowski/Qwen_Qwen3-8B-GGUF:Q4_K_M

```

一旦模型下载完成,只需几秒钟就能启动,你将看到一个基本的命令行聊天界面。

除非你碰巧运行M系列芯片,否则Llama.cpp默认会将模型加载到系统内存中并在CPU上运行。如果你有足够内存的GPU,你可能不想这样做,因为DDR通常比GDDR慢得多。

要使用GPU,我们需要通过添加-ngl标志来指定要卸载到GPU的层数。在这种情况下,Qwen3-8B有37层,但如果你不确定,将-ngl设置为999之类的数字将保证模型完全在GPU上运行。

**处理多个设备**

Llama.cpp会尝试使用所有可用的GPU,如果你同时拥有独立显卡和集成GPU,这可能会导致问题。我们可以使用--device标志指定运行Llama.cpp的GPU。

**服务你的模型**

虽然基于CLI的聊天界面很棒,但它不一定是与Llama.cpp交互的最便捷方式。相反,你可能想将其连接到图形用户界面(GUI)。

幸运的是,Llama.cpp包含一个API服务器,可以连接到任何支持OpenAI兼容端点的应用,如Jan或Open WebUI。如果你只想要一个基本的GUI,不需要做任何特殊操作,只需使用llama-server而不是llama-cli启动模型。

**寻找模型**

Llama.cpp适用于大多数使用GGUF格式量化的模型。这些模型可以在各种模型库中找到,其中Hugging Face是最受欢迎的之一。

如果你在寻找特定模型,值得查看Bartowski、Unsloth和GGML-Org等配置文件,因为他们通常是最先提供新模型GGUF量化版本的。

**量化你自己的模型**

如果你要找的模型还没有GGUF格式版本,你可能可以创建自己的。Llama.cpp提供了将模型转换为GGUF格式然后从16位量化到更低精度的工具。

**从源代码构建**

万一Llama.cpp没有为你的硬件或操作系统提供预编译二进制文件,你需要从源代码构建应用程序。

**性能调优**

到目前为止,我们已经介绍了如何在Llama.cpp中下载、安装、运行、服务和量化模型,但我们只是触及了其功能的表面。

运行llama-cli --help,你会看到真正有多少杠杆可拉和旋钮可转。让我们看看一些更有用的标志。

**工具调用**

如果你的工作负载需要,Llama.cpp还可以从OpenAI兼容的API端点解析工具调用。如果你想要引入外部功能,如时钟、计算器或检查Proxmox集群状态,你需要工具。

对大多数流行模型,包括gpt-oss,不需要特殊设置。只需添加--jinja标志即可。

**总结**

虽然Llama.cpp可能是最全面的模型运行器之一,但我们理解对于初次接触本地大语言模型的人来说可能相当令人生畏。这是我们花了这么长时间做这个应用实践教程的原因之一,也是为什么我们认为像Ollama和LM Studio这样更简单的应用仍然有价值。

Q&A

Q1:Llama.cpp是什么?它与其他大语言模型运行工具有什么区别?

A:Llama.cpp是一个开源的命令行工具,用于在本地运行大语言模型。与Ollama、Jan或LM Studio等图形化工具不同,Llama.cpp提供更高的性能和更多配置选项,包括CPU/GPU工作负载分配、模型量化压缩等功能。许多流行的本地模型运行框架实际上都是基于Llama.cpp构建的包装器。

Q2:使用Llama.cpp运行大语言模型需要什么硬件配置?

A:Llama.cpp几乎可以在任何设备上运行,包括树莓派。但为了获得最佳体验,建议使用至少16GB系统内存的机器。虽然不是必需的,但英特尔、AMD或英伟达的专用GPU能大大提高性能。集成GPU由于内存带宽限制,性能可能不如CPU推理。

Q3:如何在Llama.cpp中优化模型性能?

A:可以通过多种方式优化性能:使用-ngl参数将模型层卸载到GPU;启用Flash Attention(-fa)加速处理;调整上下文窗口大小(-c);设置并行处理数量(-np);启用缓存重用(--cache-reuse);使用投机解码技术;以及根据模型建议调整温度、top-p等采样参数。

相关内容

热门资讯

两位大工人上榜!2025年“科... 8月25日 第七届“科学探索奖”获奖名单揭晓 50位青年科学家获奖 2位大工人上榜! 刘巍,机械电...
捷讯精密橡胶取得柔性线路板电测... 金融界2025年8月26日消息,国家知识产权局信息显示,捷讯精密橡胶(苏州)有限公司取得一项名为“一...
余晓晖:推动“人工智能+”行动... (来源:经济日报) 转自:经济日报 当前,人工智能在技术创新与商业应用的双轮驱动下,加速与实体经济深...
神秘的宇宙“黑死病”:能够在行... 它们能够逐渐变大,吞掉整个行星,并将其转化为同等质量的黑洞。 新研究认为,暗物质可能会在如木星般大...
我国卫星互联网牌照发放倒计时,... 我国低轨卫星组网提速 作者 | 钱立富 7月下旬以来,我国卫星互联网建设明显提速。 从7月27日至8...
e法耀陇原丨甘肃酒泉:智慧警务... 高效有力的信息化平台是反诈工作的基础。酒泉公安强化“智慧宣传+精准打击”双轮驱动,构建起一道坚实的反...
国家能源局:新能源也有“成长的... 转自:北京日报客户端 8月26日上午,国新办举行“高质量完成‘十四五’规划”系列主题新闻发布会,介绍...
佛山:重塑制造业 真金白银催动... 深圳商报·读创客户端驻穗记者 张莹 8月26日,广东省人工智能与机器人产业创新产品与服务发布会(佛山...
温州建力电器申请绝缘型电力设备... 金融界2025年8月26日消息,国家知识产权局信息显示,温州建力电器有限公司申请一项名为“一种绝缘型...
从番茄到红果,张超和他的“狼群... 几周前,小红书上某位“大厂”博主发布的笔记突然火了,这篇笔记的封面写道:“张超太能打了,西瓜没做到的...
全国51支参赛队伍广州比拼医疗... 中新网广州8月26日电 (记者 王坚)来自全国各地的51支参赛队伍、近200名技能精英26日齐聚广州...
科技赋能,智慧监管!福保街道“... 深圳商报·读创客户端记者 徐丽 通讯员 何巧兰 郑涵 为彻底破解电动自行车管理难题,福田区福保街道创...
使用Llama.cpp在家中私... 虽然训练大语言模型可能需要数百万甚至数十亿美元的基础设施,但这些劳动成果往往比你想象的更容易获得。许...
老板电器取得燃气灶装置专利,冷... 金融界2025年8月26日消息,国家知识产权局信息显示,杭州老板电器股份有限公司取得一项名为“燃气灶...
贵阳大数据交易所携多项重磅成果... 8月26日,2025年中国国际大数据产业博览会媒体吹风会举行,记者从发布会上获悉,作为已连续十年参加...
【热点观察】数见未来,AI驱动... 今年初,DeepSeek横空出世,标志着AI大模型在技术领域的重大突破,为企业运营管控带来了全新的机...
湖北省纤维检验局:“科技+科普... 近日,在湖北省市场监管局主办的“矢志创新发展 建设科技强国”科技实验微短剧大赛中,湖北省纤维检验局及...
世界互联网大会文化遗产数字化论... 来源:市场资讯 (来源:澎湃新闻) 由世界互联网大会主办,陕西省人民政府承办的2025年世界互联网大...
呼和浩特生物疫苗产业强势崛起 华希生物疫苗生产车间 8月24日从呼和浩特市科技局获悉,内蒙古华希生物科技有限公司(以下简称“华希生...
电脑文件删除了怎么恢复?介绍常... 电脑文件删除了怎么恢复?当电脑文件不慎被删除后,许多人会感到焦虑和无助。实际上是有办法可以恢复这些被...