DeepSeek开源第四弹“教”优化,梁文锋参与研发
创始人
2025-02-27 16:21:32
0

2月27日,DeepSeek开源周(OpenSourceWeek)第四弹来了,DeepSeek在X上宣布这次开源的是三项优化并行策略,并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术,通过这些阐述可以清晰了解团队是如何精细地优化计算和通信,最大限度利用GPU能力的。

这三项优化并行策略其中包括DualPipe,这是一种用于V3/R1模型训练中计算与通信重叠的双向流水线并行算法,这种算法能够完全重叠前向和后向计算通信阶段,与传统方法相比减少了“流水线气泡”(设备在某些时刻的空闲等待)。 在DualPipe的开发团队署名中,包括创始人梁文锋。

优化并行策略第二项是EPLB(Expert Parallelism Load Balancer,专家并行负载均衡器),它针对V3/R1模型,解决MoE(混合专家)模型在分布式训练和推理中的负载不平衡问题。

当使用专家并行(EP)时,不同的专家被分配到不同的GPU。由于不同专家的负载可能会根据当前的工作负载而变化,因此保持不同GPU的负载平衡非常重要。DeepSeek曾在V3论文中提到,团队采用冗余专家策略来重复重载专家,他们创新地将重复的专家打包到GPU上,以确保不同GPU之间的负载平衡。

在第三部分, DeepSeek直接分享了来自训练和推理框架的性能分析数据,以帮助社区更好地了解通信计算重叠策略和低级实现细节。这些数据是用PyTorch Profiler采集的,下载后可以直接在 Chrome或 Edge 浏览器中打开,进行可视化分析,DeepSeek还模拟了绝对平衡的MoE 路由策略用于性能分析。

DeepSeek这四天的发布都与Infra层的算法有关,分享团队最大限度利用GPU能力的技术细节。大模型生态社区OpenCSG(开放传神)创始人陈冉此前对第一财经举例表示,“相当于以前DeepSeek是直接给一辆车,告诉大家这辆车续航900公里,但是现在DeepSeek在深挖,用什么方式能够开到900公里。”DeepSeek的模型为什么能够实现较好的效果,对应有一些算法和相应的框架,而这些“脚手架”的开源有利于之后的生态搭建。

陈冉判断,DeepSeek的代码开源或许会影响一批做AI Infra层的从业者,“AI Infra层的人要找新的方向。”但他同时表示,这种开源是一把双刃剑,如果能将DeepSeek开源的内容用好可能也会得利,“用不好就被冲击”。

此前三日,DeepSeek陆续开源了让大模型在GPU上跑得更快的MLA解码核FlashMLA,用于MoE模型训练和推理的DeepEP通信库,以及可支持MoE的FP8 GEMM代码库DeepGEMM。

从GitHub上获得的星标来看,这些项目颇受欢迎,截至发稿,FlashMLA已在GitHub获得超过1万星标,DeepEP的星标已有6000,DeepGEMM目前超过3700,最新发布的DualPipe星标超过700。

就在昨日,DeepSeek还在海内外同时宣布了API 错峰优惠,自2月26日起,北京时间每日00:30至08:30的夜间空闲时段,API 调用价格大幅下调:DeepSeek-V3 降至原价的 50%,DeepSeek-R1 更低至 25%。DeepSeek鼓励用户充分利用这一时段,享受更经济更流畅的服务体验。

另外,也有消息称,DeepSeek正寻求巩固自身优势,尽早推出R2模型,消息提到DeepSeek原本计划在5月初发布R2模型,目前会加快这一速度。DeepSeek目前并未对此回应。

此前DeepSeek在R1论文中提到,R1 的性能将在下一个版本得到改善,因为相关的RL(强化学习)训练数据还很少。随着RL数据的增加,模型解决复杂推理任务的能力持续稳定提升,且会自然涌现出一些复杂行为能力。

业界认为,DeepSeek-R2的发布可能是AI行业的一个关键节点。

【来源:第一财经资讯】

相关内容

热门资讯

商业化路径渐明,家用机器人赛道... 相比于还未见到商业化曙光的通用人形机器人,家用机器人赛道公司正在排队融资和IPO。据港交所6月8日披...
M5白炭黑开创未来的革命材料之... 近年来,M5白炭黑作为一种全新的革命性材料,在各个领域得到了广泛的应用和高度的赞誉。M5白炭黑是一种...
太钢焦化环保数据监控平台成功投... 近日,由山西宝信承接的太钢焦化环保数据监控平台项目成功投入运行。该平台深度整合在线监测、物联网及大数...
腾势N8L无人机版官图发布,配... 6月9日消息,腾势官方发布了一组腾势N8L无人机版的官图。新车搭载灵鸢·比亚迪智能车载无人机系统,预...
免ROOT云手机破解版推荐:低... 咱游戏党都懂,手机配置拉胯、挂机老中断有多抓狂!但最近挖到宝了——免ROOT云手机破解版,低配机也能...
热搜!马斯克的“星链”,大批坠... 据外媒6月8日报道,埃隆·马斯克的太空探索技术公司发射的“星链”卫星接连坠落。 由美国国家航空航天局...
大模型 token 太贵了?苹... 去年 WWDC 上,被苹果过度宣传又放了鸽子的苹果智能 (Apple Intelligence),余...
马斯克的“星链” 卫星大批坠落... 据北京日报,援引6月8日参考消息,埃隆・马斯克的太空探索技术公司(SpaceX)发射的 “星链” 卫...
国产 AI 初创企业硅基流动完... IT之家 6 月 9 日消息,国内 AI 初创企业硅基流动(SiliconFlow)今日发文宣布,已...
任正非最新发声:在掌声与困境中... 来源|中访网 责编|何怡然 在深圳华为总部,一场与任正非的对话,如同一扇窗,让我们得以窥见华为在复杂...
海尔智家获得发明专利授权:“烹... 证券之星消息,根据天眼查APP数据显示海尔智家(600690)新获得一项发明专利授权,专利名为“烹饪...
未上市即遭山寨,老头乐版“小米... IT之家 6 月 9 日消息,博主 @韩路 发布视频,展示了一款酷似小米 YU7 的“老头乐”车型,...
亿纬锂能获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示亿纬锂能(300014)新获得一项实用新型专利授权,专利名为“...
智慧环卫系统平台解决方案(40... 方案聚焦智慧环卫系统平台,旨在借助物联网、大数据等技术,解决传统环卫管理中的人员、车辆、事件管理难题...
人民日报专访任正非:说我们好,... 6月10日,《人民日报》头版刊发文章《国家越开放,会促使我们更加进步——对话任正非》。 全文如下: ...
国产带压作业“神器”助力涪陵页... 日前,记者从涪陵页岩气公司获悉,该公司打破国外技术垄断而研发的国产化防顶回式堵塞器,目前已在焦页69...
天文学家:在距离地球很近的地方... 在距离地球仅300光年的地方,一个巨大的分子云悄然漂浮在太阳系的边缘。 2025年初,以Blakes...
华能水电获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示华能水电(600025)新获得一项实用新型专利授权,专利名为“...
visionOS 26 全面升... IT之家 6 月 10 日消息,苹果公司在 visionOS 26 中,将对 Apple Visio...
苹果iOS 26发布 AirP... 快科技6月10日消息,今日,苹果正式发布全新操作系统iOS 26,为AirPods带来录音棚级录音和...