助力生成式AI,AMD Instinct MI300系列产品创新上市
创始人
2024-01-09 08:45:01
0

原标题:助力生成式AI,AMD Instinct MI300系列产品创新上市

当地时间12月6日,美国圣何塞,AMD成功召开“ADVANCING AI”大会,向与会者分享了大量为AI而设计的相关产品。其中的重点就是MI300系列的详细情况。该系列主要包括由1460亿个晶体管组成的CPU+GPU加速器MI300A和专为数据中心市场打造、提升AI算力的GPU产品MI300X,以及与之配套的ROCm 6软件环境。

其中Instinct MI300X GPU加速器已经发展到第三代。从2020年的为加速FP64及FP32计算而设计的第一代CDNA架构的MI100,到为高密度计算而设计、具有领先的内存容量及带宽的第二代CDNA架构的MI200系列,再到今天重点改进了统一内存架构、人工智能数据格式性能以及节点内网络性能的第三代CDNA架构的MI300系列。

MI200系列已经投产好几年了,在大型HPC部署中获得了巨大的成功。最值得注意的是Frontier超级计算机,这意味着它仍然是超算500强名单上的超级计算机所采用的解决方案。

人工智能的高速发展,带来对硬件和软件的巨大需求,AMD为此提供的解决方案是MI300系列:同时面向HPC应用和AI加速的MI300A,和为加速生成式人工智能性能而设计的MI300X。

AMD的Instinct战略有四个支柱。首先是它在现有的硬件和软件架构之上很容易迁移,兼容以往的规范且不需要重新设计服务器,软件层面也已经让上游相关合作伙伴进入这一全新的人工智能框架,大多数人工智能客户可以实现代码开箱即用。

其次是性能领先且无需妥协,在各种各样的生成式人工智能用例中提供领导力表现。第三是开放,承诺整个生态系统开放。最后则是专注于用户,无论从未来的路线图还是架构,都为用户的成功提供支撑。

接下来一起来了解全新一代为AI加速而设计的第三代CDNA架构,采用3D封装,为性能和能效而优化,为HPC和AI而设计的专用加速引擎。该架构分为两种结构,一种是APU结构,为HPC而设计的MI300A,另一种则是基于GPU结构,MI300X。

我们先来看MI300X的相关信息。MI300X是顶级生成式AI加速器,采用CDNA3架构,拥有192GB HBM3内存,内存带宽高达5.3TB/s,内部互联的AMD Infinity Fabric带宽最高可达895GB/s。

MI300X拥有8个XCD,总共304个AMD CNDA3架构计算单元,4个IOD模块,8个HBM3堆栈,配备256MB的AMD Infinity Cache技术(L3 Cache),采用3.5D封装。

来看更在细节的结构。MI300X总共拥有304个CDNA3架构计算单元,配备了192 GB的HBM 3内存,12个HBM 3颗粒,每秒能提供5.3TB的带宽。这是关键的区别,AMD有八个堆栈,而竞争对手的堆栈较少。从封装来看,MI300X拥有多层堆栈,采用了包括3D hybrid bonded铜混合键合工艺和2.5D硅interposer工艺。I/O Die上则堆叠了256MB AMD Infinity Cache(L3),各模块之间用7条x16规格的第四代AMD Infinity总线连接。

接下来是引人注目的竞品对比环节。相比竞争对手,MI300X的HBM3内存更大,内存带宽更高,在高性能计算方面的FP64和FP32理论峰值算力都远超竞争对手。在AI加速的能力上,MI300X也基本上是对手的1.3倍。

不仅如此,AMD还提供已经完全符合工业标准设计的,采用8个MI300X整合起来的整体解决方案。整体的HBM3内存容量高达1.5TB,Infinity Fabric带宽可达896GB/s,BF16/FP16算力可达10.4PFLOPS。

和竞争对手的HGX解决方案相比,AMD的MI300X平台方案的HBM3内存容量是对手的2.4倍,FP16和BF16的算力是对手的1.3倍。其它规格则在伯仲之间。

在一些主流大模型的AI内核加速表现上,MI300X能够领先竞品10%-20%。

如果以8张GPU卡的单服务器来比较,推理性能则可以领先40%到60%。

MPT模型的训练方面,单服务的8张MI300组合能够和竞争对手并驾齐驱。

单系统和竞争对手的性能对比总结。

AMD董事会主席兼CEO Lisa Su女士展示8x GPU套件。

朋友圈环节,OEM和集成商合作伙伴包括了主流的HP、DELL、Lenovo以及GIGABYTE等各大品牌。

秀肌肉环节则是展示AMD与Top超算500强前25强、绿色超算前10强之间的合作。

当地时间12月6日,美国圣何塞,AMD成功召开“ADVANCING AI”大会,向与会者分享了大量AI相关产品的最新资讯。其中的重点,就是MI300系列的详细情况。该系列主要包括由1460亿个晶体管组成的CPU+GPU加速器MI300A和专为数据中心市场打造的提升AI算力的GPU产品MI300X,以及与之配套的ROCm 6软件环境。

其中,MI300A是世界上首款APU模式的加速器,可以同时兼顾为AI和HPC应用优化,GPU部分同样采用CDNA3架构,拥有128GB的HBM3缓存,不同的模块分别采用5nm和6nm制程,Chiplet封装。

从第三代Infinity架构到第四代Infinity架构,CPU和GPU之间变得更加融合,采用统一内存架构,效率更高。

和MI300X相比,MI300A的XCD为6个,总共228个CNDA3架构计算单元。另外的空间安排了3个CCD的总共24个Zen4核心的x86架构CPU。

同样采用了包括3D hybrid bonded铜混合键合工艺和2.5D硅interposer封装工艺,被AMD称之为3.5D封装。但I/O Die的第四代Infinity Fabric总线减少到4条x16规格,然后对应新增了4条x16规格的PCIe 5总线。

MI300A的HPC性能基本上是对手的1.8倍,AI性能,包括TF32/FP16/BF16/FP8/INT8,都与竞争对手基本相当。

APU的优势在于解锁了新的性能和功能模式,CPU和GPU采用统一内存、共享的Infinity Cache、动态功耗调度,将更便于用户编程,是一个完整的系统级解决方案。

在OpenFOAM测试中,MI300A的性能甚至可以达到对手的4倍。

AMD声称MI300A每瓦峰值性能可以达到对手GH200(Grace Hopper,GPU+ARM架构CPU组合)的两倍。

MI300A在其他一些和H100对比的HPC性能测试也领先10%-20%。

将被用于美国劳伦斯利弗莫尔实验室的EI Capitan超级计算机。

目前MI300A的首批OEM和解决方案合作伙伴,包括HPEE、VIDEN、GIGABYTE和SUPERMICRO。

软件环境

从云到端剑指AI

不仅仅是MI300X硬件系统强大,AMD为之准备的ROCm6软件环境也大大助力整套系统在生成式AI应用中的性能表现。

与硬件相呼应的是AMD的软件生态。AMD用于GPU平台的ROCm、用于XDNA AI引擎平台的Vitis AI以及用于EPYC CPU平台的zenDNN软件环境都相当出色。

从硬件底层到API到编译器和工具,再到库,再到大模型,ROCm软件环境应景为生成式AI做好准备,能够提供强大的性能表现。

OpenAI正在与AMD携手合作,将在Triton开源编程语言3.0版本中将MI300系列列入支持。

对于主流开源框架的支持也相当到位,大大减轻了开发难度。

对于Instrict系列来说,这一次的代际延迟优化高达8倍。

ROCm6.0的各方面优势都相当明显。

相关内容

热门资讯

戴森发布 PencilVac:... 大学刚毕业的时候,我一个人租住在一个小房子里。面积不大,物件不少,做起清洁来辗转腾挪。我想过买一台吸...
想要加密文件?文件加密的方法有... 我们的生活和工作都离不开各种电子文件,从个人的照片、日记到企业的商业机密、合同文件,这些数据蕴含着巨...
原创 一... 自从一加与OPPO合并后,两大品牌各有定位,比如一加专注于游戏性能方面、OPPO专注于影像方面,两大...
原创 百... 百度暴涨的AI收入,是外界对这家公司AI技术的最大认可。 作者|杨知潮 哪个大厂的AI技术最强? ...
破百!花都人医“人工心肺”为生... 近期,广州市花都区人民医院ECMO(体外膜肺氧合)技术临床应用累计突破100例! 作为广州北部地区最...
政策暖风频吹 机器人产业迎强劲... 本报记者 郭冀川 人形机器人半程马拉松在北京亦庄鸣枪开跑的余温尚存,5月25日,《CMG世界机器人大...
天津构建“低空医疗”服务新通道... 5月21日9时25分,一架搭载模拟急救血液的无人机从滨海新区塘沽中心血站升空,精准降落在市肿瘤医院滨...
展品变爆品 文创成“顶流” 南方日报讯 Molly形象的奶茶师在港风茶餐厅熟练“摇奶茶”,奶龙AI玩伴机器人讲故事当“幼师”,三...
中国科学院举办专题展览,再现5... 新京报讯(记者张璐)5月25日,“科学人生·百年”主题宣传活动在中国科学院学术会堂举办。“科学人生·...
400场活动点燃广州科技活动周... 南方日报讯(记者/李鹏程)5月24日,2025年广州科技活动周开幕式在广州市第一中学举行。科技活动周...
在阜阳举办的这场医疗大会,他们... 2025年5月22日, 由安徽省首席信息官协会医疗专委会联合中国电信安徽公司举办的“县(区)域医院信...
前沿技术让传统文化“活”起来—...   新华社深圳5月25日电(记者陈宇轩)点击屏幕,选择一块唐代的石碑,历经千年风霜,石碑上的汉字已经...
Win10技术支持渐入倒计时 从最初的犹犹豫豫,到最终的勉强接受使用,Win10 的发展历程堪称充满波折。在其刚刚开始崭露头角,试...
影视机械臂、仿生熊猫……AI摇... 为期5天的第二十一届中国(深圳)国际文化产业博览交易会正在广东深圳举行。本届文博会面向全球集中展示1...
华为ICT大赛2024-202... 5月24日,华为ICT大赛2024-2025全球总决赛闭幕式暨颁奖典礼在深圳举行。本届大赛规模创历史...
武船重工申请一种折弯机器人及其... 金融界2025年5月24日消息,国家知识产权局信息显示,武汉船用机械有限责任公司申请一项名为“一种折...
【深圳特区报】文博会成了机器人... ▲机器人弹古筝。 ▼机器人写书法。 观众与机器人下棋。 深圳特区报记者 周红声 杨浩翰 毕晗 胡...
原创 满... 在智能手机飞速发展的今天,我们惊喜地发现,曾经被贴上“低配”“容易卡顿”标签的百元机市场,如今也迎来...
雄安“创新链”与“产业链”这样... 河北日报客户端讯(记者李畅)中国地质大学(北京)研发的绿色建材技术与北京科技大学研发的建筑多能供能技...
江苏昇业取得管段切割用金属圆锯... 金融界2025年5月24日消息,国家知识产权局信息显示,江苏昇业机械科技有限公司取得一项名为“一种管...