重大突破!刚刚,华为发布!
创始人
2025-05-31 12:41:14
0

中国AI产业注入强心剂。

5月30日,券商中国记者从华为获悉,华为在MoE模型训练领域再进一步,重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。同时,华为发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节,充分体现了昇腾在超大规模MoE训练性能上的跨越。

业内人士分析,华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程自主可控的训练实践,同时在集群训练系统的性能上也实现了业界领先。这意味着国产AI基础设施的自主创新能力得到了进一步验证,为中国人工智能产业的发展提供了一颗“定心丸”。

国产算力与国产模型重大突破

据悉,训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,华为盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿MoE模型的全流程训练。

在模型架构上,盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化的方法,在昇腾平台上实现了超过18TB数据的长期稳定训练。此外,他们还提出了EP loss负载优化方法,这一设计不仅保证了各个专家之间的能保持较好的负载均衡,也提升了专家的领域特化能力。同时,盘古Ultra MoE使用了业界先进的MLA和MTP架构,在预训练和后训练阶段都使用了Dropless训练策略,实现了超大规模MoE架构在模型效果与效率之间的最佳平衡。

在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自适应流水掩盖策略,进一步优化算子执行程序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技术实现万卡集群预训练MFU由30%大幅提升至 41%。

此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿、激活160亿参数量的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。

业内人士分析,华为此举的核心意义在于,证明了在国产AI算力平台(昇腾)上,能够高效、稳定地训练并优化达到国际顶尖水平的超大规模稀疏模型(MoE),实现了从硬件到软件、从训练到优化、从基础研究到工程落地的“全栈国产化”和“全流程自主可控”的闭环,并在关键性能指标上达到业界领先水平。

国内大模型消息不断

5月28日,深度求索公司传来消息,DeepSeek-R1模型已完成小版本试升级,可前往官方网页、APP、小程序测试(打开深度思考),API接口和使用方式保持不变。

这家总部位于杭州的初创公司今年1月发布了DeepSeek-R1人工智能模型,震惊了全球科技界。R1模型在多项标准化指标上的表现均优于西方竞争对手,而其成本据称仅为数百万美元。此举引发了全球科技股的暴跌,投资者开始质疑,领先的公司是否仍需要投入巨资来构建人工智能服务。

这是自3月底以来,DeepSeek的一次最新动作。3月25日晚,DeepSeek公司在官方账号上正式宣布V3模型完成小版本升级的消息,并介绍了新版本DeepSeek-V3-0324模型的提升细节,包括推理、前端开发、中文写作、中文搜索几个方面的能力优化。彼时,据海外专业AI模型评测机构最新排名,新版V3模型是得分最高的非推理模型,超过xAI的Grok3和OpenAI的GPT-4.5(preview)。

5月21日,在2025腾讯云AI产业应用峰会上,腾讯大模型战略首次全景亮相,从自研的混元大模型、到AI云基础设施,再到智能体开发工具、知识库以及面向场景的应用,腾讯大模型矩阵产品全面升级。腾讯正通过持续打磨技术和产品能力,为企业和用户在大模型时代打造真正“好用的 AI”。

在疯狂卷技术的全球大模型角逐中,腾讯混元正小步快跑、快速迭代,技术能力持续提升。

腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生在会上宣布,在全球公认的权威大语言模型评测平台Chatbot Arena上,混元TurboS排名已攀升至全球前八,国内仅次于DeepSeek。其中,代码、数学等理科能力,混元TurboS也进入全球前十。

5月29日,腾讯旗下腾讯元宝、ima、搜狗输入法、QQ浏览器、腾讯文档、腾讯地图、腾讯乐享等多款AI应用宣布接入DeepSeek R1-0528,用户在不同产品中,选择DeepSeek模型R1深度思考,都可以体验到DeepSeek R1-0528最新的深度思考、编程和长文本处理等能力。

责编:战术恒

排版:王璐璐

校对:高源

相关内容

热门资讯

新一代国产操作系统又有新突破 来源:北京晚报 国产操作系统又有新突破。昨天在北京举行的2025中国操作系统产业大会上,我国首个6....
国务院部署深入实施“人工智能+... 央广网北京8月27日消息(记者李硕)据中央广播电视总台经济之声《交易实况》报道,国务院日前印发《关于...
回应空调之争,小米大家电部总经... “这个世界上有很多事情的发展节奏都是从看不上、到看不懂、再到学不会、最后跟不上的。”8月27日晚间,...
紫金矿业等公布“一种复配捕收剂... 天眼查APP显示,近日,紫金矿业集团股份有限公司,中南大学申请的“一种复配捕收剂以及高效浮选锂云母的...
艾为电子获得发明专利授权:“数... 证券之星消息,根据天眼查APP数据显示艾为电子(688798)新获得一项发明专利授权,专利名为“数模...
国务院发文!加强人工智能在安全... 国务院日前印发《关于深入实施“人工智能+”行动的意见》(以下简称《意见》),明确提出要加强人工智能在...
苹果为iOS 26引入HDR截... 【CNMO科技消息】近日,苹果公司正在测试的iOS 26系统中,新增了一项实用功能:支持高动态范围(...
苹果云机:哪个云手机流畅便宜好... 在当今科技飞速发展的时代,云手机已经成为游戏玩家和科技爱好者的新宠。它们不仅提供了流畅的游戏体验,还...
苹果AI秘密武器曝光!代号“A... 编辑:倾倾 定慧 苹果已悄然成立代号「AKI」(Answers, Knowledge & Infor...
原创 哪... 站哥分享了一份2024年底新旗舰的畅销榜,时间是截止到W33(7.11-7.17),这次不再是品牌销...
带领观众走进影像背后的故事 博... “请大家往这边走,现在看到的这张照片中,建筑工人正在修筑深圳经济特区管理线……”8月27日下午,深圳...
夺冠后,“光子”片约不断 人形机器人演艺市场爆发 夺冠后,“光子”片约不断 湖北日报全媒记者穿上动作捕捉服,体验与机器人动...
东航《每一个世界都精彩》上线,... 中国东方航空短视频《每一个世界都精彩》近日正式上线。影片以三位性格鲜明、爱好各异的小旅客为主角——热...
上天→入地→下海!“大国重器”... 央视网消息:8月26日,我国多个“大国重器”传来捷报。长征八号甲火箭2025年第三发,成功发射卫星互...
万策尽!PS4硬件规范或难继续... 《最终幻想14》问世已逾十年,自发布后不久便登陆PlayStation 4平台。然而索尼的上世代硬件...
云苹果手机工具箱:云手机众多,... ## 一、云手机热潮来袭 在游戏的世界里,科技的发展总是不断为我们带来新的惊喜。如今,云手机的出现宛...
激发科学兴趣 树立科学志向 姓名:周方圆 学科:物理 毕业高中:杭州高级中学 现就读于:上海交通大学人工智能专业 英才计划中,我...
国家“人工智能 +”战略加持:... AI科技行业风云变幻,科大讯飞以稳健的发展节奏持续破局,更以财务健康度的显著提升,为发展注入确定性底...
一文梳理TikTok公会申请关... 在全球短视频领域,TikTok 无疑占据着举足轻重的地位。其庞大的用户基础和强大的影响力,为众多创作...
血液透析浓缩液注册单元划分的依... 在医疗器械注册管理过程中,注册单元的合理划分直接影响企业的注册效率、成本控制以及产品的市场准入速度。...