盘点!DeepSeek“开源周”
创始人
2025-03-03 13:21:03
0

开源:未来的发展方向?

DeepSeek采用了完全开源策略,不仅降低了用户的使用门槛,还促进了AI开发者社区的协作生态。通过开源,DeepSeek吸引了大量开发者和研究人员的关注,推动了AI技术的发展。

当然,开源也面临着保护知识产权和开源社区秩序维护等挑战。

DeepSeek的成功被一些人视为中国技术理想主义的体现,甚至被外国人比喻为神秘的东方力量。

但从整个AI大模型产业来看,DeepSeek的成功或许代表了一种全新的发展方向——通过算法优化而非单纯依赖算力和数据量来提升模型性能。这一方向也为AI大模型产业的发展提供了新的思路。

2月21日午间,DeepSeek在社交平台X发文称,从下周开始,他们将开源5个代码库,以完全透明的方式与全球开发者社区分享他们的研究进展。并将这一计划定义为“Open Source Week”

在最新发布的消息中,DeepSeek称:“我们是@deepseek_ai,一个致力于探索通用人工智能(AGI)的小团队。从下周开始,我们将开源5个代码库,以完全透明的方式分享我们虽小但真诚的进展。”

DeepSeek表示,即将开源的代码库是他们在线服务中的基础组件,且都经过了详细记录、部署和实战测试。

DeepSeek指出, 作为开源社区的一部分,他们相信分享的每一段代码都将汇聚成集体力量,推动行业加速前进。“每日解锁的内容即将上线。这里没有象牙塔,只有纯粹的车库创业精神和社区驱动的创新。”

01

2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。

据介绍,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000 GB/s的内存带宽&580 TFLOPS的计算性能。”DeepSeek说。

简单来说,FlashMLA 是一个能让大语言模型在 H800这样的GPU上跑得更快、更高效的优化方案,尤其适用于高性能AI任务。这一代码能够加速大语言模型的解码过程,从而提高模型的响应速度和吞吐量,这对于实时生成任务(如聊天机器人、文本生成等)尤为重要。

MLA (Multi-Layer Attention,多层注意力机制)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列时的效率和性能‌。MLA通过多个头(head)的并行计算,让模型能够同时关注文本中不同位置和不同语义层面的信息,从而更全面、更深入地捕捉长距离依赖关系和复杂语义结构‌。

此前,有从业者解析DeepSeek架构时提到,MLA的本质是对KV(Key-Value,一种缓存机制)的有损压缩,提高存储信息,“该技术首次在DeepSeek-V2中引入,MLA是目前开源模型里显著减小KV 缓存大小的最佳方法。”

02

继昨天开源Flash MLA后, DeepSeek25日向公众开源了DeepEP——第一个用于MoE模型训练和推理的开源EP通信库。

据介绍,DeepEP是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库,它为所有GPU内核提供高吞吐量和低延迟,也称为MoE调度和组合。该库还支持低精度操作,包括FP8。

同时,DeepEP针对NVLink(NVLink是英伟达开发的高速互联技术,主要用于GPU之间的通信,提升带宽和降低延迟)到RDMA(远程直接内存访问,一种网络数据传输技术‌,用于跨节点高效通信)的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。

对于对延迟敏感的推理解码,DeepEP包含一组低延迟内核和纯RDMA,以最大限度地减少延迟。该库还引入了一种基于钩子的通信计算重叠方法,该方法不占用任何SM资源。

03

2月26日,DeepSeek宣布开源支持稠密和MoE模型的DeepGEMM(通用矩阵乘法)计算库,可为V3/R1模型的训练和推理提供强大支持。

图片来源:X

DeepGEMM最大的特点就是简洁高效,仅有300行核心代码。但在性能上,DeepGEMM的表现非常出色,在某些情况下甚至能够超越专家精心调优的计算库,可以说是极致榨干GPU的性能潜力。

04

2月27日,DeepSeek一次性开源了两个工具和一个数据集,分别是DualPipe、EPLB(专家并行负载均衡器)以及训练和推理框架的性能分析数据。此外,DeepSeek还在Github上详细讲解了DeepSeek-V3和R1模型背后的并行计算优化技术。

图片来源:X

据介绍,DualPipe是一种用于V3和R1训练中计算与通信重叠的双向流水线并行算法。DeepSeek-V3就首次使用了该方法。与传统的1F1B(交替执行前向和后向传播)和ZB1P(零气泡单向流水线)方法相比,DualPipe大幅减少了流水线气泡,同时仅增加了1倍的激活内存峰值。

05

2月28日,DeepSeek开源周的最后一天,DeepSeek直接公开了V3和R1训练推理过程中用到的Fire-Flyer文件系统(简称3FS,第三个F代表File)和基于3FS和DuckDB构建的轻量级数据处理框架Smallpond。

图片来源:X

3FS是一个真正意义上面向现代SSD(固态硬盘)和RDMA(远程直接访问)网络的文件系统,它可以把固态硬盘的带宽性能利用到极致,并表现出了惊人的速度:180节点集群中的聚合读取吞吐量为6.6TiB/s;25节点集群中GraySort基准测试的吞吐量为3.66TiB/分钟;每个客户端节点的KVCache查找峰值吞吐量超过40GiB/s。

根据DeepSeek团队介绍,3FS就是为了AI训练和推理工作负载的挑战所开发的。它利用现代SSD和RDMA网络来提供共享存储层,从而简化分布式应用程序的开发。

它可以在没有双方操作系统介入的情况下,将数据直接从一台计算机的内存传输到另一台计算机,也不需要中央处理器、CPU缓存或上下文交换参与。特点就是高通量、低延迟,尤其适合在大规模并行计算机集群中使用。

内容综合:新华网、光明网、经济日报等

相关内容

热门资讯

木星:太阳系中的超级英雄,默默... 在浩瀚的太阳系中,有这样一位默默奉献的“大哥大”——木星,它不仅以其庞大的身躯傲视群雄,更是地球等内...
我国完成超500公里公路干线通... 记者今天(9日)从交通运输部了解到,我国公路水路交通基础设施数字化转型升级示范区域,目前已完成超过5...
AI驱动医疗革新,维谛技术(V... 在AI浪潮席卷全球的今天,人工智能在影像分析、辅助诊断、外科手术、基因测序、药物研发等领域中的应用正...
3B超越DeepSeek,大模... 新智元报道 编辑:LRST 【新智元导读】 Time-R1通过三阶段强化学习提升模型的时间推理能力...
五年,见证一座“科创之城”的崛... 从蓝图到实景,从构想到落地,这片60.4平方公里的热土,见证了低空经济振翅高飞、商业航天擎空宇宙、具...
一图看懂鸿蒙版微信开发时间线:... 6 月 9 日消息,自鸿蒙操作系统诞生以来,其生态建设便一路高歌猛进,展现出蓬勃的生命力和发展潜力。...
瞄准无人机产业,白宫发布多项行... (环球时报)本报记者 肖震冬 本报特约记者 任 重 美国总统特朗普当地时间上周五签署多项与无人机有关...
南京世唯通信申请卫星轨道数据处... 金融界2025年6月9日消息,国家知识产权局信息显示,南京世唯通信技术有限公司申请一项名为“一种卫星...
乐动机器人拟港股IPO,聚焦“... 5月30日,深圳乐动机器人股份有限公司向港交所递交上市申请书,拟在主板挂牌上市。 招股书显示,乐动机...
央广财评|AI应用开启“人工智... 当不断带来惊喜的人工智能技术遇上中国超大规模的消费市场,“人工智能+消费”碰撞出新场景、新体验、新产...
定子法兰导电滑环:风力发电机稳... 在清洁能源发展浪潮中,风力发电机成为重要的电能生产设备,而定子法兰导电滑环则是风力发电机稳定运行的核...
原创 人... 导语:随着时代的进步与科技的发展,人工智能技术已经日益成熟。如今,许多人通过人工智能技术复原古代历史...
羧基修饰聚苯乙烯微球增强了检测... 羧基修饰聚苯乙烯微球(100 nm)介绍 产地:西安瑞禧生物可提供 包装:mg以及g级 用途:科学研...
越“尊贵”,越昂贵?淘宝天猫“... “今年6·18,我的88VIP是不是白开了?”这些疑问正在部分淘宝天猫付费会员中出现。他们开始主动将...
全方位创新,浙江建设现代化医院   用机器人系统模拟最佳手术路径,用3D打印定制髋关节假体……不久前,浙江大学医学院附属第一医院(下...
我国海洋能开发加速迈进智能化新... 2025-06-08 19:41:30 作者:狼叫兽 海洋能是一种从海洋中获取的可再生能源,包括...
一周艺术人物|蔡赟骅涂装火箭,... 回顾一周艺术人物,在中国酒泉,艺术家蔡赟骅(Jacky Tsai)以“嫦娥奔月”为主题涂装的火箭顺利...
天津爱吉建材取得可移动式自动切... 金融界2025年6月7日消息,国家知识产权局信息显示,天津爱吉建材有限公司取得一项名为“一种可移动式...
【前沿】vivoXFold5真... 近日第一财经报道,vivo X Fold5将在6月下旬发布,这次将打破之前vivo X Fold3保...
人大赋能招商引资 福建首座低空... 近日,福建容祺智能低空载重无人机产业项目正式签约落户永定文秀数字智造产业园,成为福建省首个集研发、生...