超越H100!英特尔Gaudi 3 AI芯片要干翻英伟达?
创始人
2024-04-10 20:51:34
0

原标题:超越H100!英特尔Gaudi 3 AI芯片要干翻英伟达?

英伟达如今在 AI 芯片市场的地位无可争议,直线上涨的数据中心收入和市值就是最好的佐证。但王权没有永恒,英伟达并非不可撼动。

在英伟达发布最新一代 BlackWell GPU 的三周后,4 月 9 日晚,英特尔在 Vision 2024 大会上发布了一系列关于芯片的大消息。

会上,英特尔发布了面向数据中心的第六代至强处理器,也提前展示了面向下一代 AI PC 的 Lunar Lake 处理器。不过纵观整场大会,英特尔花费最多篇幅也最重视的,可能还是最新一代的 AI 芯片:

英特尔 Gaudi 3。

Gaudi 3,图/英特尔

超越英伟达 H100:Gaudi 3 性能更强、成本更低

Gaudi 3 最直接的升级体现在性能和成本方面。

相比英伟达 H100,Gaudi 3 的人工智能推理性能平均提高 50%,能效平均提高 40%。基准测试中,Gaudi 3 可以在 Llama2-7B、Llama2-13B 模型中将训练时间缩短到英伟达 H100 的一半,同时推理吞吐量也比后者平均高出了 50%。

可以说,Gaudi 3 至少在 Llama2 等关键大模型中击败了基于英伟达 Hopper 架构的 H100 GPU,这也是目前市售产品中技术最先进的 AI 芯片。

而 Gaudi 3 还有另一个极其重要的升级——比 H100 低得多的成本,按照英特尔的原话是:

(Gaudi 3 的)成本仅为英伟达 H100 的一小部分。

也怪不得 Gaudi 3 刚刚发布,英特尔就宣布 Naver(韩国互联网巨头)、博世、IBM、Ola 等一大批公司成为英特尔 Gaudi 加速器的客户和合作伙伴。而最早在今年第二季度,英特尔就将向戴尔、惠普以及超微等 OEM 厂商率先供货,第三季度正式上市。

Naver 代表上台,图/英特尔

耐人寻味的是,英特尔往年在 Vision 大会上基本不会发布新的芯片,今年却一反常态发布了六代至强处理器和 Gaudi 3 AI 芯片两款重磅产品。

考虑到英特尔 CEO 帕特·基辛格(Pat Gesinger)去年底就炮轰过英伟达的 CUDA 生态「既浅又窄」,似乎除了软件生态上的对抗,英特尔也在加快硬件上的追赶。

不过,Gaudi 3 真的有机会挑战英伟达的 GPU 霸权吗?

要知道,相比英伟达两年前基于 Hopper GPU 架构的 H100,上个月基于 BlackWell GPU 架构发布的 B100 又进行了一轮大幅的升级,包括马斯克也不禁感慨,「目前没有什么比英伟达 GPU 更好的 AI 芯片了。」

Blackwell GPU,图/英伟达

Gaudi 3 硬件追上英伟达了吗?

不同于 BlackWell 采用了最新的台积电 3nm 工艺,Gaudi 3 基于台积电 5nm 工艺打造,同时张量核心从 24 个升级到了 32 个。

相比上一代的 Gaudi 2,Gaudi 3 在 FP8 性能、BF16 性能、网络带宽、内存带宽都得到了全面的提升,其中 FP8 吞吐量更是高达 1835 TFLOPS:

基本翻了一番。

图/ 英特尔

比较奇怪的是,搭载 128GB 内存的 Gaudi 3 没有采用最新的 HBM3(高带宽内存),而是采用了稍微有点过时的 HBM2e。

除了更低的传输带宽,HBM2e 的单颗容量也只有 16GB,相比之下 HBM3 的传输带宽得到了大幅提升,单颗容量也能达到 24GB,甚至是 32GB。

此外,Gaudi 3 采用了英伟达 BlackWell 类似的双芯片设计,同时封装了两个相同的芯片,并通过高带宽链路进行连接。每个 Gaudi 3 芯片都具有 48MB 板载 SRAM,整个芯片提供 96MB SRAM,总带宽为 12.8TB/秒。

I/O 方面,英特尔并没有放弃以太网路线,在 Gaudi 3 上将以太网端口的速率从 100GB/s 升级到了 200GB/s,再考虑到双芯片的设计和每个芯片 24 个以太网端口,每一张 Gaudi 3 的以太网 I/O 总带宽高达 8.4TB/s。

总的来说,英特尔在 Gaudi 3 的升级上并不激进,甚至可以说有些保守,包括成本要低得多的 5nm 工艺和 HBM2e 内存,都说明了这一点。虽然相比上一代 Gaudi 2 已经有了明显的进步,在部分大模型上超越 H100,但显然很难与英伟达最新的 B100 相抗衡。

但英特尔的决策未必错了。

Gaudi 3,图/英特尔

一方面,考虑到英伟达在 AI 加速计算方面的技术和生态领先优势,英特尔就算不惜一切代价进行追赶,很可能也难以追平,同时高昂的芯片成本,还会导致英特尔直接错失正在快速增长的 AI 芯片市场。

另一方面,在成本优势明显的前提下,英特尔只要能做到超越英伟达 H100 的表现,自然能够吸引足够的客户进行采购。

更何况就连英伟达自己也预计,「下一代产品(B100)将出现供应紧张」。面对「想买不能买」的窘境,很多客户自然而然也会转向其他可替代的 AI 芯片。

这其中,就有属于 Gaudi 3 的机会。

硬件、软件生态齐头并进,英特尔能否扛起大旗?

「整个行业都希望能干掉 CUDA,包括 Google、OpenAI 等公司都在想方设法让人工智能训练更加开放。我们认为 CUDA 的护城河既浅又窄。」基辛格说。

在前不久雷科技的报道中,我们就解析了全球科技巨头组建 UXL 统一加速基金会对抗英伟达 CUDA 的动作。

图/ UXL

简单来说,巨头们基于英特尔 oneAPI 技术,正在开发一套开源软件平台来替代英伟达 CUDA 平台,允许人工智能开发者在任何 AI 芯片上运行他们的代码,也包括英伟达 GPU,核心是解除芯片硬件与软件开发平台之间的强绑定关系,打破英伟达 GPU 在开发生态上的霸权。

正如高通人工智能和机器学习主管 Vinesh Sukumar 所言:「我们实际上是在向开发者展示如何从英伟达平台迁移出来。」

软件的推倒、硬件的追赶,英特尔显然明白英伟达的成功既来源于软件,也来源于硬件,只有齐头并进才能真正追赶上英伟达的脚步,甚至干掉 CUDA,干掉英伟达的护城河。

但英特尔能不能扛起「打倒英伟达」的大旗,夺回数据中心市场的领先地位?关键可能取决于两点:

一是英特尔能不能在一众英伟达挑战者中脱颖而出,包括 AMD 以及一众全球 AI 芯片公司都不会错过英伟达 GPU「供不应求」的机会;

二是按照英特尔的路线图,在合并 GPU 和 AI 芯片两条产品线之后,代号「Falcon Shores」的下一代 GPU,能不能展现出超越英伟达最新一代 GPU 的潜力。

数据中心芯片路线图,图/英特尔

写在最后

过去一年多,AI 掀起了一场不言而喻的革命,但不管 AI 将如何改变我们的生活,芯片算力依然是底层的驱动力。

但英伟达生生占据了 AI 芯片市场的 80%,这显然并不寻常,不过人们最不满的关键其实还是:英伟达无法满足所有人。在这个前提下,不管是英特尔、AMD 还是国产 AI 芯片厂商,其实都还有机会。

换言之,英特尔 Gaudi 3 面对的还是一块「广阔天地」,自然「大有可为」。

北京国际汽车展览会(北京车展)将于4月25日-5月4日隆重举行,本届车展以“新时代 新汽车”为主题,是“汽车从电动化走向智能化”的风向标。

届时,包括比亚迪、小米、AITO问界、小鹏、蔚来、理想、极氪、极越、长安深蓝等头部品牌将悉数登场,除新车型“大比武”外,自动驾驶技术的推进、智能座舱的演化和AI大模型与汽车的结合,都将是重要看点。雷科技旗下“关注电动车,更懂智能化”的账号电车通将派出报道团前往北京现场,进行一线专业报道,敬请关注。

相关内容

热门资讯

这波体验酷啊!他们都说“超过瘾... “知行虎门”第二天 有哪些精彩节目? 孩子们都有哪些收获? 一起来瞧瞧~ 航天飞行体验 在水濂小镇...
十篇齐发!《细胞》首次为中国脑... 7月10日深夜,由中国科学院脑科学与智能卓越技术创新中心领衔,我国科学家联合发布了10项重要成果,论...
Grok4成“宇宙最强模型”?... 21世纪经济报道记者孔海丽、实习生郑子涵 北京报道 虽然马斯克本人一脸疲态,但他亲自坐镇,给Grok...
关键部件全部国产化!全球单机功... 10日,中国华能集团有限公司(以下简称中国华能)宣布,全球单机功率和风轮直径最大的直驱型漂浮式海上风...
贴地飞行!时速600公里超导电... 7月8日至11日,第十二届世界高速铁路大会在北京举行,第十七届中国国际现代化铁路技术装备展览会同期举...
大屏化与AI驱动TV高端化浪潮 近日,在京东方投资者日活动中,京东方代表与行业伙伴、专家围绕TV高端化趋势以及LCD在多种显示技术中...
福建夫妻干出超级独角兽:用无人... 作者 | 铅笔道 松格 矿区内,无人驾驶矿卡已整齐排列,随着指令下达,这些矿卡缓缓启动,按照预设路线...
周红波:全球首个也是目前唯一将... 文/翁炫 在位于苏州工业园区纳米科技城的汉纳实验室里,周红波拿着一小块黑色薄膜自豪地说:“我们把概...
Grok 4号称“全球最强AI... 「这是世界上最聪明的人工智能。」 尽管比原定发布会时间推迟了近一个小时,但在今天中午(北京时间 9 ...
“江苏地质号”卫星出征 吉林一... 上证报中国证券网讯(记者 田甜)7月10日,长光卫星技术股份有限公司(下称“长光卫星”)在吉林省航天...
科学杂谈:一秒钟有多久? 1秒钟有多久?这个问题似乎不难回答。1天被分为24小时,每1小时被分为60分钟,而每分钟又被细分为6...
嫦娥六号玄武岩样品最新研究:破... 中新网北京7月10日电 (记者 孙自法)中国科学家对嫦娥六号采自月球背面南极-艾特肯盆地(SPA)的...
哈工大录取通知书公布,将送20... 7月10日消息,哈尔滨工业大学近日公布了今年的录取通知书以及“哈工大小卫星梦想遨游计划”,要将202...
原创 液... 在数字经济时代,算力需求爆发式增长,能量密度急剧增加,数据中心正面临前所未有的散热挑战。传统风冷技术...
上海交大团队突破AI设计热辐射... 在科技日新月异的今天,人工智能(AI)正以前所未有的速度渗透至科研领域的各个角落,为传统科学难题的解...
慕思股份:以专业为引领 智慧睡... 在当今快节奏的生活中,睡眠质量成为人们日益关注的焦点。消费者对睡眠质量的关注度显著提升,也推动了床垫...
参宿四爆炸后亮度超月亮,半年不... 最近,我在网上看到一个特别有意思的话题,说参宿四要是爆炸了,亮度能超过月亮,而且这亮度啊,能持续半年...
轻量化设计某新能源主减-差速器... 摘要:为轻量化设计某新能源主减-差速器总成,对主减速从动齿轮(简称主减齿轮)采用新的工艺路线,即滚齿...
智元机器人回应“借壳上市”猜测... IT之家 7 月 9 日消息,智元机器人针对近日“借壳上市”的猜测做出最新回应。 昨日晚间,上纬新材...
数字体育:连接健康、科技与生活 本文转自【人民日报海外版】 作为体育与科技深度融合的新兴产业,数字体育正加速迈向发展风口,不仅助力体...