AMD最强AI芯片发布:性能是英伟达H100的1.3倍!
创始人
2024-01-09 07:41:18
0

原标题:AMD最强AI芯片发布:性能是英伟达H100的1.3倍!

12月7日消息,AMD于当地时间周三举行了“Advancing AI”发布会,正式推出了面向AI及HPC领域的GPU产品Instinct MI300A/MI300X加速器,直接与英伟达(NVIDIA)H100加速器竞争。同时AMD还发布了代号为Hawk Point的最新一代Ryzen 8000系列APU,可面向AI PC产品。

MI300A:HPC性能达到NVIDIA H100的4倍

虽然在今年6月的“数据中心与人工智能技术发布会”,AMD就有发布MI300A和MI300X,只不过当时MI300X只是纸面上的发布,现在MI300A和MI300X已经开始批量量产了,AMD也公布了更多关于MI300A、MI300X的性能数据。

AMD MI300A采用了Chiplet设计,其内部拥有多达13个小芯片,均基于台积电5nm或6nm制程工艺(CPU/GPU计算核心为5nm,HBM内存和I/O等为6nm),其中许多是 3D 堆叠的,以便创建一个面积可控的单芯片封装,总共集成1460 亿个晶体管。

具体来说,MI300A与上一代的MI250X一脉相承,采用新一代的CDNA 3 GPU架构,拥有228个计算单元(14592个核心),并集成了24个Zen 4 CPU内核,配置了128GB的HBM3内存。MI300A的计算核心被 8 个HBM3内存包围,单个HBM3的带宽为6.3GB/s,八个16GB堆栈形成128GB统一内存,带宽高达5.3 TB/s。

在算力方面,MI300A提供了高达61 TFLOPS FP64算力,多达122 TFLOPS FP32算力。

AMD表示,MI300A GPU将HPC提升到一个新的水平,其性能是NVIDIA H100的4倍,能效是H100的两倍。

具体来说,在OpenFOAM中,MI300A APU提供了相比H100高达4倍的性能提升,这主要来自于统一的内存布局、GPU性能以及整体内存容量和带宽。与NVIDIA的Grace Hopper超级芯片相比,该系统每瓦的性能也提高了2倍。

AMD证实,MI300A目前正在发货,还将用于为下一代El Capitan超级计算机提供动力,预计该超级计算机将提供高达2 Exaflops的计算能力。值得一提的是,AMD是唯一一家凭借Frontier超级计算机突破1 Exaflop大关的公司,也是地球上效率最高的系统。此外,惠普、Eviden、技嘉、超微等也将是MI300A加速器的OEM和解决方案合作伙伴。

MI300X:AI性能比英伟达H100高出30%!

MI300X采用了相比MI250X更简单的设计,MI300X内部集成了12个5/6nm工艺的小芯片(HMB和I/O为6nm),拥有1530亿个晶体管,放弃了 APU 的 24 个Zen4内核和 I/O 芯片,取而代之的是更多计算核心的 CDNA 3 GPU。

MI300X的每个基于CDNA 3 GPU架构的GCD总共有40个计算单元,相当于2560个内核。总共有八个计算芯片(GCD),因此总共有320个计算和20480个核心单元。不过,就目前的量产版而言,AMD缩减这些核心的一小部分,因此实际总共有304个计算单元(每个GPU小芯片38个CU)可用于19456个流处理器。

在内存带宽方面,MI300X也配备了更大的 192GB HBM3内存(8个HBM3封装,每个堆栈为12 Hi)相比MI250X提高了50%,带来高达5.2TB/s的带宽和896GB/s的Infinity Fabric带宽。相比之下,英伟达即将推出的H200 AI加速器提供141 GB的容量,而英特尔即将推出的Gaudi 3将提供144 GB的容量。大型内存池在LLM(大语言模型)中非常重要,LLM大多是与内存绑定的,AMD可以通过在HBM内存容量上的领先地位来提升器人工智能能力。

具体来说,AMD的MI300X与英伟达的H100加速器相比:

  • 内存容量提高 2.4 倍
  • 内存带宽提高 1.6 倍
  • 1.3 倍 FP8 TFLOPS
  • 1.3 倍 FP16 TFLOPS
  • 在 1v1 比较中,速度比 H100 (Llama 2 70B) 快达 20%
  • 在 1v1 比较中,速度比 H100 (FlashAttention 2) 快达 20%
  • 8v8 服务器中的速度比 H100 (Llama 2 70B) 快达 40%
  • 在 8v8 服务器中,速度比 H100 (Bloom 176B) 快达 60%

在具体的AI大模型加速性能对比当中,MI300X相比H100在 FlashAttention-2 和 Llama 2 70B 中提供了高达 20% 的性能提升。

从平台角度来看,将 8x MI300X 解决方案与 8X H100 解决方案进行比较,前者在 Llama 2 70B 中获得了更大的 40% 的性能提升,而在 Bloom 176B 中则获得了 60% 的性能提升。

AMD指出,在AI训练性能方面,MI300X 与竞争对手 (H100) 相当,并提供有竞争力的价格/性能,同时在推理工作负载方面表现出色。

在功耗方面,AMD MI300X的额定功率为750W,比 MI250X的500W增加了50%,比NVIDIA H200多了50W。

ROCm 6.0开放软件平台

AMD还推出了ROCm 6.0开放软件平台,该最新版本具有强大的新功能,包括支持各种人工智能工作负载,例如生成式人工智能和大型语言模型。

新的软件堆栈支持最新的计算格式,例如 FP16、Bf16 和 FP8(包括 Sparsity)等。

这些优化相结合,通过优化的推理库将 vLLM 的速度提高了高达 2.6 倍,通过优化的运行时间将 HIP Graph 的速度提高了 1.4 倍,并通过优化的内核将 Flash Attention 的速度提高 1.3 倍。

AMD指出,与上一代软硬件组合相比,使用MI300X和ROCm 6跑Llama 2 70B文本生成,AI推理速度提高了约8倍。

ROCm 6 预计将于本月晚些时候与 MI300 AI 加速器一起推出。看看 ROCm 6 与 NVIDIA CUDA 堆栈的最新版本(它的真正竞争对手)相比如何,将会很有趣。

G593-ZX1/ZX2系列服务器

AMD还展示了一种配置是Gigabyte的G593-ZX1/ZX2系列服务器,它提供多达8个MI300X GPU加速器和两个AMD EPYC 9004 CPU。这些系统将配备多达八个3000W的电源,总功率为18000W。

据介绍,该集成了8个MI300X GPU的加速器平台,相比NVIDIA HGX H100平台,带来的提升包括:

2.4倍更高的HBM3内存(1.5 TB vs. 640 GB)

1.3倍以上的计算FLOPS(10.4 PF vs. 7.9 PF)

类似的双向带宽(896 GB/s vs. 900 GB/s)

类似的单节点环形带宽(448 GB/s vs. 450 GB/s)

类似的网络功能(400 GbE vs. 400 GbE)

类似的PCIe协议(PCIe Gen 5 128 GB/s)

据semianalysis此前报道,微软、Meta、甲骨文、谷歌、Supermicro/Qunta-direct、亚马逊等公司已经向AMD下了不同数量的MI300系列订单。

今天,微软也宣布将评估对AMD的AI加速器产品的需求,评估采用该新品的可行性。Meta公司也宣布将在数据中心采用AMD新推的MI300X芯片产品。甲骨文也表示,公司将在云服务中采用AMD的新款芯片。

此前市场预计AMD的MI300系列在2024年的出货约为30~40万颗,最大客户为微软、谷歌,若非受限台积电CoWoS产能短缺及英伟达早已预订逾四成产能,AMD出货有望再上修。

值得注意的是,在不久前的财报会议上,AMD CEO苏姿丰(Lisa Su)表示,“基于我们在人工智能路线图执行和云客户购买承诺方面取得的快速进展,根据预计,随着全年收入的增加,数据中心GPU的收入在第四季度将约为4亿美元,2024年将超过20亿美元。这一增长将使MI300系列成为AMD历史上销售额最快增长至10亿美元的产品。

目前,在生成式AI的热潮之下,英伟达凭借其AI芯片的出色性能及CUDA的生态优势,在云端AI芯片市场占据者垄断优势。不过,由于英伟达的AI芯片价格高昂以及供应短缺,云服务及AI技术厂商们处于成本及多元化供应链安全考虑,也使得AMD和英特尔等竞争者有了更多的机会。

编辑:芯智讯-浪客剑

相关内容

热门资讯

工业互联网“百城千园行”举行,... 工业互联网“百城千园行”举行,6家孝感企业获评“湖北省5G工厂” 湖北日报讯(记者刘天纵、通讯员黎小...
【建议收藏】0元领取235G长... 研究表明,现代人大概每六秒就会看一次手机,在机不离手的时代,流量早就成为了“氧气般刚需”。与此同时流...
江苏峰工电气取得变压器铁芯夹件... 金融界2025年5月24日消息,国家知识产权局信息显示,江苏峰工电气科技有限公司取得一项名为“变压器...
江苏金碧田取得管道内部控制阀结... 金融界2025年5月24日消息,国家知识产权局信息显示,江苏金碧田系统集成有限公司取得一项名为“一种...
2024可信赖的企业级生成式A... 今天分享的是:2024可信赖的企业级生成式AI白皮书 报告共计:195页 生成式人工智能:重塑企业生...
速递|稚晖君仅3个月再获京东投... 图片来源:智元机器人 据《智能涌现》报道,「智元机器人」即将完成新一轮融资,本轮由京东与今年4月刚设...
“政策给力,自己努力,爬坡过坎... 一套模拟太阳光光谱的植物照明灯,可用于水果、蔬菜、花卉等的无土化栽培,不受土地、季节等条件限制,产量...
2025Q1人工智能现状分析:... 获取完整报告,公众『数字化新机遇』阅读原文或点击菜单获取。 报告《2025Q1人工智能现状分析:中国...
原创 外... 人类起源猜想:文明遗迹、基因密码与宇宙的终极叩问 楔子:星空下的永恒谜题 当现代人用射电望远镜扫描...
首图举办全国科技活动周系列活动 本报讯(记者 路艳霞)昨天,值第25个全国科技活动周之际,首都图书馆围绕“行读绿野 漫游科海”主题,...
李书福:几乎所有新势力都来吉利... 快科技5月25日消息,5月23日,吉利控股集团与北京韩红爱心慈善基金会公益战略合作启动仪式在位于台州...
海尔智家获得发明专利授权:“快... 证券之星消息,根据天眼查APP数据显示海尔智家(600690)新获得一项发明专利授权,专利名为“快速...
AI同传设备支持20人5种语言... 深圳新闻网2025年5月25日讯(深圳特区报记者 方慕冰)5月24日,第二十一届文博会文化产业招商会...
原创 超... "有没有一款手机能让我彻底告别充电焦虑、游戏卡顿和拍照拉胯?" 我正握着发烫的旧手机,看着只剩15%...
启点跃动场馆微信购票:人脸识别... 在全民健身热潮与数字技术深度融合的今天,传统线下购票模式已难以满足观众对便捷、智能、个性化的服务需求...
跨越“数字鸿沟”,社区开展老年... 近日,苏州市姑苏区沧浪街道西大街社区教育中心内洋溢着浓厚的学习氛围,一场老年人智能手机科普活动在这里...
广西正田取得光伏组件支架的夹持... 金融界2025年5月24日消息,国家知识产权局信息显示,广西正田塑料科技有限公司取得一项名为“一种光...
深度观察|文化为魂 科技为翼 作为“中国文化产业第一展”,文博会是全国文化产业的风向标。本届展会以“创新引领潮流 创意点亮生活”为...
苏州锦利仓取得产品展示箱专利,... 金融界2025年5月24日消息,国家知识产权局信息显示,苏州锦利仓电子科技有限公司取得一项名为“一种...
台州利宇电缆取得自修复型电缆专... 金融界2025年5月24日消息,国家知识产权局信息显示,台州利宇电缆有限公司取得一项名为“一种自修复...