手把手教您使用DFRobot LattePanda Mu部署DeepSeek-R1蒸馏模型
创始人
2025-02-14 18:22:23
0

在大语言模型的训练过程中,提升推理能力一直是科研人员关注的重点。DeepSeek-R1模型通过创新性的强化学习(RL)方法,实现了无需依赖人工标注的自主推理能力提升。它通过自我反馈机制学习处理复杂推理任务,如数学问题和编程逻辑。

DeepSeek-R1的训练分为两个主要阶段:在“冷启动”阶段,模型使用少量高质量样本进行微调,以提高推理清晰度;接着在强化学习阶段,通过拒绝低质量输出进行优化,从而增强推理能力。此外,该模型采用精心设计的数据混合策略,以高效培养特定领域的表现,达到了在低人工干预下实现复杂问题解决的目标。

如何将DeepSeek-R1蒸馏模型实现本地部署?

第一步:选择性价比合适的开发板

传统的高性能主板如Jetson Orin和Nano虽然出色,但往往价格昂贵且尺寸较大,适用性有限。DFRobot LattePanda Mu(拿铁熊猫开发板)是一款高性能微型x86计算模块,搭载Intel N100四核处理器,配备8GB的LPDDR5内存和64GB存储,能流畅运行复杂的深度学习任务。它拥有多种扩展接口包括3个HDMI/DisplayPort接口、8个USB 2.0接口、最多4个USB 3.2接口以及最多9个PCIe 3.0通道,还提供开源载板设计文件,支持根据项目需求进行灵活定制。

第二步:选择合适的框架来高效加载和执行大语言模型

根据Deepseek官方说明,本地部署可以使用VLLM和SGLang的方式,但是通常情况下,这两种调用方法不仅操作复杂还占用量大,小编推荐另一种高效快捷的方法——使用Ollama框架。

第三步:安装Ollama

在Ollama官网下载安装。如果你也使用Ubuntu系统,可以直接通过如下指令来安装。

根据硬件的性能以及实际的需求来选择不同参数大小的模型,没有配备专业级显卡的,推荐用14B以内的模型。(复制代码如下)

1. ollama run deepseek-r1:1.5b

2. ollama run deepseek-r1:7b

3. ollama run deepseek-r1:8b

4. ollama run deepseek-r1:14b

5. ollama run deepseek-r1:32b

6. ollama run deepseek-r1:70b

7. ollama run deepseek-r1:671b

32b,70b,671b对机器的要求如下:

● DeepSeek-R1-Distill-Qwen-32B

VRAM需求:约14.9GB

推荐GPU配置:NVIDIA RTX 4090 24GB

RAM:建议至少32GB

● DeepSeek-R1-Distill-Llama-70B

VRAM需求:约32.7GB

推荐GPU配置:NVIDIA RTX 4090 24GB × 2

RAM:建议48GB以上

● DeepSeek-R1 671B(完整模型)

VRAM需求:约1,342GB(使用FP16精度)

推荐GPU配置:多GPU设置,例如NVIDIA A100 80GB × 16

RAM:512GB以上

存储:500GB以上高速SSD

需要注意的是,对于671B模型:

1. 通常需要企业级或数据中心级硬件来管理其巨大的内存和计算负载。

2. 使用量化技术可以显著降低VRAM需求。例如,使用4位量化后,模型大小可降至约404GB。

3. 使用动态量化技术,可以进一步降低硬件需求,将大部分参数量化到1.5-2.5位,使模型大小降至212GB-131GB之间。

4. 对于本地部署,可能需要考虑使用多台高性能工作站或服务器,如使用多个Mac Studio(M2 Ultra,192GB RAM)来满足内存需求。

5. 运行完整671B模型时,还需考虑功耗(可能高达10kW)和散热等问题。

总的来说,32B和70B模型可以在高端消费级硬件上运行,而671B模型则需要企业级或数据中心级的硬件配置。选择合适的硬件配置时,还需考虑具体的使用场景、性能需求和预算限制。

第四步:运行DeepSeek-R1蒸馏模型

LP Mu 运行速度参考

对于不同规格的Mu和R1模型,在Ollama的运行速度参考如下(tokens/s):

注:8B模型基于Llama-3.1-8B蒸馏,7B模型基于Qwen2.5-Math-7B蒸馏,如果是老师在学校使用更推荐7B。

Ollama官方提供了计算推理速度的工具,只要在聊天窗口输入/set verbose就能使其在每次回复后自动输出运行速度,

输出结果如下所示:

这样,理论上我们已经可以正常使用啦!

随着技术的发展,SBC(单板计算机)和类似 LattePanda Mu 的小型计算平台在边缘计算和定制化应用中展现了更多可能性。同时,DeepSeek 模型的强大推理能力为这些平台带来了新的潜力。DeepSeek 在数据库查询、文本理解等智能应用领域表现出色。未来,随着 LattePanda Mu 和 DeepSeek 的进一步优化,开发者和研究者将在各种硬件环境中更好地利用深度学习和大语言模型,推动更智能、高效的应用实现。

相关内容

热门资讯

无人机清洁外滩玻璃幕墙:科技引... 上海外滩渔人码头,以其独特的地理位置与现代建筑风格闻名遐迩,黄浦江波光粼粼,映衬着周边摩天大楼的玻璃...
餐饮小程序开发 在现代社会,餐饮行业的发展与技术进步密不可分。随着移动互联网的普及,越来越多的餐饮企业开始尝试开发小...
中芯国储储能固态电池研究取得重... 中芯国储研究员-储能行者 近日,中芯国储传来振奋人心的消息,其旗下研究员储能行者在实验室成功取得储能...
杭正电子取得一种车载显示器专利... 金融界2025年7月5日消息,国家知识产权局信息显示,杭州杭正电子科技有限公司取得一项名为“一种车载...
便携式EL检测仪:光伏行业的“... 在光伏产业蓬勃发展的当下,便携式EL检测仪凭借其高效、精准、便携的特性,成为保障光伏组件质量的核心工...
福建省内最大华为门店在厦开业 昨日,华为在福建的最高规格门店——华为智能生活馆(厦门万象城店)正式开业,为我市“首店经济”注入新活...
天津市两部门开展智能养老服务机... 央广网天津7月6日消息(记者褚夫晴)日前,记者从天津市民政局获悉,从今年起到2027年,市民政局将与...
从多模态融合到行业深扎,国内 ... 国内有众多 AI 大模型研发机构,如百度、阿里、字节跳动、科大讯飞等,从这些机构的实践来看,大模型主...
香港特斯拉降价“狙击”内地电动... 特斯拉在中国香港被认为仍拥有一定先发及品牌优势。对于有志于出海的中国内地车企,“借助当地独特的市场环...
鲁建建筑取得新型挡土墙结构专利... 金融界2025年7月7日消息,国家知识产权局信息显示,山东省鲁建建筑工程检测有限公司取得一项名为“一...
星空有约|太阳系迎来第三位“闯... 新华社南京7月7日电(记者王珏玢、朱筱)7月初,一个来自太阳系外的天体在穿过木星轨道时被发现,引起全...
安徽未来产业澎湃崛起 月壤打砖让月球建房成为可能、量子密话密信等“黑科技”走进生活、依托“人造太阳”探索“终极能源”、自研...
中国科技馆“科学方法特训营”暑... 新京报讯(记者张璐)“科学方法特训营”暑期营地系列活动首场——“星际启航”营地探访活动7月5日在中国...
Meta豪掷AI“超级智能”赛... 环球网 7月6日消息,据外媒报道,meta首席执行官马克·扎克伯格近日在人工智能竞赛中火力全开,通过...
杭州ai图像识别技术介绍 一、引言 随着科技的飞速发展,人工智能(AI)已逐渐成为各行业的核心驱动力。其中,AI图像识别技术作...
交通枢纽 “神经网”:无线对讲... 春运高峰单日客流破百万、机场航班起降调度分秒必争…… 现代交通枢纽每日承载着海量人流、物流运转。无线...
雷军顶着35℃高温为首批YU7... 极目新闻记者 王鹏 7月6日,小米YU7正式开启全国交付,覆盖全国58个城市。雷军发文称:“今天(6...
罗马仕停工停产!低价内卷遭反噬... 5月24日,罗马仕还在为618预热,为即将到来的购物节打出“抢半价”的活动,彼时其未曾料到,短短1个...
Deepseek “严重烂尾”... 最近Deepseek的关注度正持续下降!有数据显示,Deepseek的用户活跃度从春节高点的15%一...
矩阵多元取得加热器及半导体设备... 金融界2025年7月5日消息,国家知识产权局信息显示,深圳市矩阵多元科技有限公司取得一项名为“一种加...