摩尔线程支持 DeepSeek 开源周“全家桶”
创始人
2025-03-02 14:00:23
0

IT之家 3 月 2 日消息,DeepSeek 开源周正式收官,摩尔线程智能科技(北京)股份有限公司昨日晚发文宣布,在短时间内成功实现对 DeepSeek 各个开源项目的全面支持,涵盖 FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer 文件系统(3FS)。

IT之家附摩尔线程支持 DeepSeek 开源周“全家桶”代码合集如下:

FlashMLA

FlashMLA 是一款高效的 MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速 MLA 机制的计算,特别适用于 DeepSeek 系列模型(如 DeepSeek-V2、V3 和 R1)。

摩尔线程基于全新 MUSA Compute Capability 3.1 计算架构,可提供原生 FP8 计算能力,同时升级了高性能线性代数模板库 MUTLASS,快速支持了 FlashMLA。借助 MUTLASS 0.2.0,摩尔线程发布开源仓库 MT-FlashMLA,能够快速对 DeepSeek FlashMLA 进行兼容部署。

MT-FlashMLA 开源地址:

MUTLASS FlashAttention3 地址:

DeepEP

DeepEP 是一个用于 MoE(混合专家)模型训练和推理的开源 EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要 EP 的集群训练。它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于 MUSA Compute Capability 3.1 全功能 GPU,第一时间适配了 DeepEP,支持以下特性:

  • 高效优化的 All-to-All 通信,支持 dispatch & combine

  • 支持 MTLink + GPU(MUSA Compute Capability 3.1)节点内通信

  • 训练及推理预填充阶段的高吞吐量计算核心

  • 推理解码阶段的低延迟计算核心

  • 原生支持 FP8 数据分发

  • 灵活控制 GPU 资源,实现计算与通信的高效重叠

MT-DeepEP 开源地址:
DeepGEMM

DeepGEMM 是一个支持密集矩阵与混合专家(MoE)矩阵乘法的 FP8 GEMM 库,为 V3 / R1 的训练与推理提供强大动力。这个开源仓库基于高性能通用矩阵乘法(GEMM)的 C++ 模板库进行开发。摩尔线程基于 MUTLASS 在全新 GPU 架构上优化实现了 FP8 矩阵乘法,支持 DeepGEMM 的相应功能。

MUTLASS FP8 GEMM 地址:

DualPipe

DualPipe 是 DeepSeek-V3 提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了“流水线气泡”(设备空闲等待)。与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架 Torch-MUSA(已开源)和 MUSA 软件栈全方位的兼容性,实现了对 DualPipe 这一算法的高效支持。MT-DualPipe 可以完整接入摩尔线程 MT-Megatron 框架MT-TransformerEngine 框架(即将开源),实现 DeepSeek V3 训练流程的完整复现

MT-DualPipe 开源地址:

Torch-MUSA 开源地址:

3FS

Fire-Flyer 文件系统(3FS)是一种利用现代 SSD 和 RDMA 网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致,在 V3 和 R1 的训练与推理过程中,3FS 成为关键支撑,以应对 AI 训练和推理工作负载的挑战。

摩尔线程在一天内迅速完成了高性能分布式文件系统 3FS 的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成,为 AI 训练、AI 推理、科学计算等场景提供全栈存储加速方案。

3FS CSI Driver 地址:

相关内容

热门资讯

威海市中西医院耳鼻咽喉科:优势... 耳朵,是我们聆听世界的窗口,然而耳鸣、耳聋、眩晕等耳部疾病却如阴霾般笼罩患者生活,不仅严重影响生活质...
两部门开展智能养老服务机器人结... 中国网财经6月9日讯 据工信部网站消息,工信部、民政部6月9日发布关于开展智能养老服务机器人结对攻关...
数字时代内容创作的正确打开方式 键盘敲击声在寂静的办公室里此起彼伏,26 岁的自媒体编辑小林盯着屏幕上密密麻麻的文献资料,额角渗出细...
云上盖章,量子技术重构企业安全... 近日,中国电信新疆伊犁分公司通过为某公司成功交付量子云印章系统,实现量子云印章首单破零,这标志着中国...
原创 山... 老狐是真没想到,老头乐竟然已经把手伸到了自主品牌身上。 前不久雷军刚刚在小米 15 周年新品发布会上...
马斯克脑机接口新突破:渐冻症患... 来源:@经济观察报微博 据报道,6月9日,埃隆·马斯克在社交平台转发的一则案例引发全球关注:其旗下脑...
Siri升级遇阻,苹果AI战略... 近期,苹果公司在其Siri语音助手的AI升级之路上遭遇了显著挑战,这一消息引发了外界对其即将举行的年...
爱立信:AI成功并非一朝一夕,... 通信世界网消息(CWW)近日,爱立信宣布与阿斯利康、萨博、瑞典北欧斯安银行、瓦伦堡投资公司合作,共建...
涨知识!“海”和“洋”原来有这... 6月8日是世界海洋日。在许多人印象中,“海洋”是一个词语,但实际上,“海”与“洋”既有关联又有不同。...
聊城市市场监管局举办医疗器械生... 大众网记者 刘臣臣 通讯员 刘晓雨 聊城报道 为进一步加强聊城市医疗器械生产环节检查员队伍建设,提...
CAR-T疗法显著提升晚期胃癌... 据新华社北京6月7日电 (记者 胡丹丹)中国研究人员近日在英国《柳叶刀》杂志上发布的一项Ⅱ期临床研究...
马斯克的“星链”卫星,突然大批... 据俄罗斯《共青团真理报》网站6月8日报道,埃隆·马斯克的太空探索技术公司发射的“星链”卫星接连坠落。...
特斯拉“擎天柱”人形机器人项目... 6月9日消息,据多家媒体报道,当地时间周五(6月6日),特斯拉“擎天柱”(Optimus)人形机器人...
红魔电竞平板3 Pro首发内置... 快科技6月9日消息,红魔电竞平板3 Pro将于6月11日正式发布,该机是行业首款9英寸小平板。 今日...
实现国产化!我国成功研制P波段... 记者6月8日从中国科学院高能物理研究所获悉,中国散裂中子源加速器射频团队与合作者研制的紧凑型P波段大...
曲靖市科技馆科普大篷车走进马龙... 为拓宽学生的科学视野,激发学生对科学知识的探索兴趣,实现科技教育资源共享,曲靖市科技馆于6月6日在马...
木星:太阳系中的超级英雄,默默... 在浩瀚的太阳系中,有这样一位默默奉献的“大哥大”——木星,它不仅以其庞大的身躯傲视群雄,更是地球等内...
我国完成超500公里公路干线通... 记者今天(9日)从交通运输部了解到,我国公路水路交通基础设施数字化转型升级示范区域,目前已完成超过5...
AI驱动医疗革新,维谛技术(V... 在AI浪潮席卷全球的今天,人工智能在影像分析、辅助诊断、外科手术、基因测序、药物研发等领域中的应用正...