黑土地开鲜花,昇腾算力炼出准万亿领先大模型
创始人
2025-05-31 00:41:27
0

近日,华为在MoE模型训练领域再进一步,重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节,充分体现了昇腾在超大规模MoE训练性能上的跨越。

训练超大规模和极高稀疏性的 MoE 模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿 MoE 模型的全流程训练。

在模型架构上,盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化的方法,在昇腾平台上实现了超过18TB数据的长期稳定训练。此外,他们还提出了 EP loss 负载优化方法,这一设计不仅保证了各个专家之间较好的负载均衡,也提升了专家的领域特化能力。同时,盘古Ultra MoE使用了业界先进的MLA和MTP架构,在预训练和后训练阶段都使用了Dropless训练策略,实现了超大规模MoE架构在模型效果与效率之间的最佳平衡。

在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自适应流水掩盖策略,进一步优化算子执行序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技术实现万卡集群预训练MFU由30%大幅提升至41%。

此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。

华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程自主可控的训练实践,同时在集群训练系统的性能上也实现了业界领先。这意味着国产AI基础设施的自主创新能力得到了进一步验证,为中国人工智能产业的发展提供了一颗“定心丸”。

#国产昇腾训出世界一流大模型

校对:张彦君

相关内容

热门资讯

华为Mate XTs官宣:抢在... 近期,智能手机市场迎来了两大重要发布消息。先是苹果官方宣布,其备受瞩目的2025年秋季新品发布会定于...
逢时科技蝉联“隐形独角兽”,全... 8月23日,第十一届国际发明展览会暨第五届中国隐形独角兽500强大会(2025)在广州举办。作为全球...
从“跑腿签”到“指尖办” 效率... 传统审批流程耗时费力、纸质文件堆积成山的场景,在采油一厂已成为历史。 如今,无论是管理人员还是一线员...
新闻1+1丨朝哪发力?怎样落地... 8月26日,《关于深入实施“人工智能+”行动的意见》全文发布,绘出了清晰的路线图。 聚焦科技、产业、...
原创 寒... 谁也想不到,一家直到去年还从未赢过利的企业,股价在两年多时间翻了几十倍,从40多元暴涨至1400多元...
工信部:有序推进卫星通信业务开... 据央视新闻消息,工业和信息化部今天(8月27日)发布《关于优化业务准入促进卫星通信产业发展的指导意见...
以数字技术擦亮制造业的绿色底色 (来源:中华工商时报) 转自:中华工商时报 制造业是国民经济的重要支柱,也是能源消耗和碳排放的关键领...
工信部:有序推进卫星通信业务开... 工业和信息化部今天(8月27日)发布《关于优化业务准入促进卫星通信产业发展的指导意见》。《意见》提出...
标准化、人才化、产业化,上海B... 在上海大歌剧院的建设中,近300张深化图纸、超3万个点位坐标凭借BIM+AI技术全自动生成,无一差错...
首届AI国际人才峰会在香港举办 上证报中国证券网讯(记者 何漪)8月26日,香港投资管理有限公司与北京智源人工智能研究院在香港联合举...
国产操作系统,新突破! 国产操作系统又有新突破。26日在京举行的2025中国操作系统产业大会上, 我国首个6.6内核商用桌面...
数字天津 引领未来——从算力筑... 来源:西部网 数字浪潮奔涌,重塑经济发展格局。 今年恰逢推进数字中国建设10周年,我国数字经济规模稳...
马斯克预言人形机器人数量将远超... 埃隆·马斯克在社交媒体平台X上回应了大卫·斯科特·帕特森的帖子。帕特森估计,到2030年,所有工作岗...
新华全媒+|提出六大行动!“人... 国务院日前印发《关于深入实施“人工智能+”行动的意见》。为何印发意见?意见部署哪些重要工作?一起来了...
问止中医已递交招股书 ,或成为... 深圳商报·读创客户端首席记者 谢惠茜 在国家“人工智能+”行动战略深入实施、中医药现代化进程加速推进...
格力电器获得发明专利授权:“电... 证券之星消息,根据天眼查APP数据显示格力电器(000651)新获得一项发明专利授权,专利名为“电加...
小米新零售出海,落子东南亚 小米新零售出海首站落子东南亚。 8月27日,上海证券报记者从小米集团获悉,2025年是小米新零售的出...
ST逸飞获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示ST逸飞(688646)新获得一项实用新型专利授权,专利名为“...
新一代国产操作系统又有新突破 来源:北京晚报 国产操作系统又有新突破。昨天在北京举行的2025中国操作系统产业大会上,我国首个6....
国务院部署深入实施“人工智能+... 央广网北京8月27日消息(记者李硕)据中央广播电视总台经济之声《交易实况》报道,国务院日前印发《关于...