今天分享的是:紫金山实验室:2024年智算网络技术与产业白皮书
报告共计:85页
《2024年智算网络技术与产业白皮书》由紫金山实验室等单位编写,梳理了智算网络领域的政策、产业与技术发展,探讨了智算产业对网络能力的诉求及相关技术,结合案例给出发展建议,旨在推动智算网络技术创新与应用。
1. 发展概况
- 政策态势:我国重视数字基础设施建设,通过系列政策加强智算设施建设与升级,推动产业数字化升级,如北京、上海、贵州等地的相关举措。
- 产业形势:国内推进智算网络标准化,智算产业链涵盖上下游,众多城市建设智算中心,如中国电信、阿里云、腾讯等企业的项目,产业上下游协同推动行业数字化转型。
- 技术趋势:AI模型参数规模增长,以太推动智算网络开放互联,融合成为演进主路径,新型大容量网络芯片发展迅速。
2. 核心要求
- 网络带宽:对AI训练和推理至关重要,未来需求将提升。
- 网络时延:低时延支撑AI分布式训练和推理,要求日益严苛。
- 网络抖动:智算中心流特征特殊,控制抖动对高性能网络重要。
- 网络丢包:对AI训练和推理有严重影响,需高可靠性网络支持。
3. 关键技术
- 集群内:新型网络架构包括Clos、Dragonfly等多种,各有优劣;超宽可编程转发技术灵活性高,涉及控制面和转发面可编程;无损网络技术确保网络不丢包,包含流控和拥塞控制等技术;网络负载均衡技术针对传统机制不足提出多种优化方案;端网协同的NetMind跨层通信架构实现网算协同调度优化。
- 集群间:光电融合组网与路由技术应对广域网挑战,实现高效业务部署等功能;广域拥塞控制技术从传输层和链路层解决长距传输问题;广域RDMA技术架构基于现有广域网互联,采用特定协议传输;新型低损光纤技术包括G.654.E低损光纤和空芯光纤,满足高速光传输需求。
4. 典型案例
- 天翼云昇腾智算项目:提供多种算力服务,采用RoCEv2等技术,硬件选型和组网设计满足AI训练集群需求,推动AI市场发展。
- 紫金山新型无损数据中心项目:基于自研设备和技术,构筑多场景数据中心网络,实现网络可视化,智能网卡硬件卸载提升性能,已稳定运营并服务众多行业龙头。
5. 发展建议
- 硬件创新:优化异构计算架构,研发高速互连技术,发展超低损耗光纤等。
- 软件算法:开发智能编译器,研究并行计算算法,推进AI算法应用等。
- 标准化开放:推动标准制定,倡导开放平台,建立测试认证机制等。
- 资金支持:政府加大投入,促进产业生态合作。
以下为报告节选内容