中国移动程伟强:基于GSE构建新型智算中心网络 助力AI产业发展
创始人
2024-05-27 11:41:47
0

C114讯 5月25日消息(九九)5月23日,2024中国高质量发展论坛的第四场线上论坛——“AI时代:数据中心光互联技术新趋势”顺利举行。论坛邀请电信运营商、互联网服务商、云计算厂商、模块芯片商、科研院所、业内专家共聚一堂,围绕热点话题深入探讨光互联和全光交换的应用及其面临的机遇和挑战。

中国移动研究院基础网络技术研究所副所长程伟强在主题演讲中表示,全球智能算力需求快速增长,亟需构建标准统一、技术领先、软硬协同、兼容开放的新型智算中心(NICC)技术体系。其中,智算中心网络用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算中心整体算力水平具有关键意义。

程伟强介绍,当前业界智算中心高性能网络创新主要分为两个方向,一是基于现有以太网优化,二是革新底层以太网方案。中国公司主导的全调度以太网(GSE)和美国公司主导的超级以太网(UE)都以革新以太网转发机制作为核心,并进一步优化各层协议栈,推动网络芯片底层逻辑架构支持,突破无损以太性能瓶颈。

程伟强进一步介绍,全调度以太网(GSE)技术体系能够最大限度兼容以太网生态,从四层(物理层、链路层、网络层、传输层)+一体(管理和运维体系)等几个层级进行优化和增强,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展。

当前,基于GSE的以太网技术路线逐渐形成产业共识,高带宽、高性能、高可靠、高安全的以太网助力智算中心互联,提升智算中心网络性能和整体算力水平。

在高带宽方面,AIGC推动B400G技术发展,800GE将成为智算中心组网的重要代际节点。IEEE 800G标准进展顺利,802.3df(8x100G)已发布,802.3dj(4x200G和800G相干)在快速推动。中国移动专家积极贡献,推动实现了20km、40km、80km互通和共平台,并主导完成800GE 20km Objective立项,是中国公司专家在IEEE的首个以太网基础标准立项。

1.6Tb/s标准制定也已启动,业界开始积极布局。802.3dj重点关注1.6TE短距光标准,PCS/FEC方案已确定,1.6TBASE-DR8(500m)和1.6TBASE-DR8-2(2km)光接口基础参数已确定;OIF已领跑1.6T相干,同步开展互操作的1600ZR和1600ZR+标准化,降低成本并加强行业间的协作,产业趋势明朗。

在高性能方面,GSE创新以太网转发机制,基于三大核心机制转变:从“流”分发到“报文”分发、从“盲发+被动控制”到“感知+主动控制”、从“局部”决策到“全局”调度,实现高精度负载均衡、网络层原生无损及低延迟。

程伟强指出,采用GSE分发技术后,有个特别的优势是,用相对小容量的交换芯片,构建更大的GPU集群。因为GSE采用了报文容器分发机制,对leaf上行端口速率需求降低,同等芯片容量下,leaf上行口的端口速率越小,组网规模越大,负载分担链路更加散列,包均衡能力更优,更适配国产芯片大规模组网需求。以12.8T交换芯片构建H100 GPU集群为例,

若采用传统RoCE组网,Spine交换机和Leaf交换机之间需要采用400GE接口互联,算力集群的最大规模仅能达到512张GPU卡;若采用GSE组网,Spine交换机和Leaf交换机之间用100GE接口互联即可,算力集群的最大规模能够达到2048张GPU卡。也就是说,GSE用同样大小的交换芯片可以组出4倍于RoCE网络的集群,这个对于国内交换芯片相对落后的情况尤其重要。

程伟强进一步介绍了全调度以太网的技术优势和产业进展:超大规模,极致的链路负载,同等芯片容量,GSE网络可支持更大集群规模;超高性能,GSE网络较RoCE网络性能提升30%,提升大模型训练效率;超高可用,集中控制统一纳管,高精度监控“135”故障处理,保证集群可用性。目前,GSE推进计划已经有40余家合作伙伴,多个GSE的芯片项目已经在开发过程中。

在高可靠方面,AI大模型网络集群规模已达到万卡级别,模型训练耗时长、成本高。链路异常导致训练中断,造成算力的浪费与成本的增加;万卡集群端口数超过几万,线路故障不可避免。来自相关厂商统计数据,光链路异常频发,故障率约为0.1%~0.2%,平均每周近1起链路闪断类告警。

程伟强强调,团队正在发展FlexLane技术,这是基于以太网物理层弹性通道的高可靠保障技术。当物理层检测到lane故障后进行快速故障隔离,可以有效减少大模型训练因模块故障而重新load check piont的几率,在智算中心场景有很好应用前景。

在高安全方面,传统网络安全方案无法满足智算中心网络需求,IPSec、MACSec等安全方案应用于智算网络时,难以兼容存量设备,无法覆盖所有数据报文,引入较长处理时延,增加大量封装开销,影响AI算效。

程伟强介绍,中国移动提出的以太网物理层安全(PHYSec)架构及关键技术,具有四大特点:一是协议透明,全加密。在物理层对比特流加密,保护所有帧头部,掩盖帧长度、帧发送频率。二是随流安全,低时延。随流加密,解密时延全掩盖(~20ns),对AI训练或推理基本无影响。三是不占带宽,低开销。基于物理层原生机制承载协议,不占用用户带宽。四是兼容存量,易部署。可基于PHY芯片或光模块DSP芯片实现,安全可插拔,支持存量网络平滑升级。

演讲的最后,程伟强表示,欢迎大家加入GSE推进计划,共同推动中国智算中心网络的技术发展,构建AI网络的中国方案。

相关内容

热门资讯

芒果TV三会员在手投屏无门,用... 来源:GPLPCN 近日,有用户爆料称,自己同时持有芒果TV平台的普通会员、全屏会员及SVIP三项...
又一家机器人公司,冲刺A股IP... 又一家机器人企业,向科创板发起冲刺。 7月30日晚,四川天链机器人股份有限公司(下称“川机器人”)...
美好时代取得锂电池隔膜收卷机专... 金融界2025年7月30日消息,国家知识产权局信息显示,湖南美好时代新材料科技有限公司取得一项名为“...
海斯比船舶申请用于船舶的多功能... 金融界2025年7月30日消息,国家知识产权局信息显示,珠海市海斯比船舶工程有限公司申请一项名为“一...
雷赛智能取得一种伺服驱动器专利... 金融界2025年7月30日消息,国家知识产权局信息显示,深圳市雷赛智能控制股份有限公司取得一项名为“...
空地一体智慧交通解决方案龙岗上... 项目启动现场 7月30日,“空中高德 龙岗启航——深圳市龙岗区空中高德时空底座发布会”正式举行,龙岗...
天玛智控申请一种三位四通换向阀... 金融界2025年7月30日消息,国家知识产权局信息显示,北京天玛智控科技股份有限公司;北京煤科天玛自...
讲真学堂:助力零基础小白掌握手... 在数字化时代,短视频已成为人们记录生活、分享点滴的重要方式。然而,对于许多没有任何拍摄经验的零基础小...
邦彦技术发布数字人平台Nuwa... 中证报中证网讯(王珞)日前,2025世界人工智能大会(WAIC)在上海召开。邦彦技术股份有限公司(6...
华为Mate 80新曝大全:e... 在 7 月 24 日的推文中,IT之家向各位盘点了华为 Mate 80 系列曝光的“花活儿”。 结合...
人工智能酝酿下一个爆款 7月的最后一个周末,2025世界人工智能大会(WAIC)吸引了800多家企业参加,宇树人形机器人跳舞...
泊头市盈康取得建筑板材生产用码... 金融界2025年7月30日消息,国家知识产权局信息显示,泊头市盈康彩钢配件有限公司取得一项名为“一种...
江苏宝安电缆取得大截面高压电缆... 金融界2025年7月30日消息,国家知识产权局信息显示,江苏宝安电缆股份有限公司取得一项名为“一种大...
宇信科技:公司成功开发了多款A... 证券日报网讯 宇信科技7月30日在互动平台回答投资者提问时表示,作为中国金融科技服务领军企业之一,公...
成果转化看绵阳 | 专场路演赋... 成果转化看绵阳 专场路演赋能科技成果高效转化 近日 绵阳科技城新区专场项目路演活动举行 多个优质中...
LG开启家电预售摸底日本 12... 重返日本家电市场的LG电子,以预售家电的模式在摸底日本市场。用户的消费偏好还有多大概率会向电子倾斜?...
筑牢防线,奉贤这家企业全力迎战... 面对台风“竹节草”逼近的严峻考验,中建二局华东公司奉贤文体中心项目紧急部署,项目部近百名人员安全转移...
广东九潮建设取得水管铺设用裁剪... 金融界2025年7月30日消息,国家知识产权局信息显示,广东九潮建设有限公司取得一项名为“一种水管铺...
steamf12截图没反应?S... Steam是由Valve公司开发的一款电子游戏分发平台,自2003年发布以来,它已经成为全球最大的数...
科技新空间落地城市文化地标:东... 7月30日,东郊记忆华为授权体验店在成都传媒集团东郊记忆国际时尚产业园区正式启幕开业。随着门店的正式...