英伟达的挑战者Groq ,在LPU上押对了什么?
创始人
2024-03-08 20:32:22
0

原标题:英伟达的挑战者Groq ,在LPU上押对了什么?

图片来源@视觉中国

文 | 电厂,作者 | 肖余林,编辑 | 高宇雷

在英伟达市值超过2万亿位居全球第三之后,谁能挑战它赖以生存的GPU芯片?

一款叫作LPU的AI推理芯片可能是这个答案。

在使用大模型的过程中,很多人会发现大模型回答问题时速度很慢,答案通常逐字或逐句跳出,并伴随着卡顿。但在LPU的加持下,大模型大幅提速,每秒能输出500个tokens,远高于ChatGPT每秒40个的表现。而常用大模型都基于GPU加速,平均速度在每秒20个tokens。

2月19日以来,这款LPU持续成为热点,担当起英伟达GPU挑战者的角色。英伟达的主力芯片H100一卡难求,这给Groq公司带来了机会。

LPU来自独角兽公司Groq,这家公司成立于2016年,有一支明星研发团队。Groq的团队来自谷歌,一手打造了谷歌的TPU芯片项目。英伟达曾经为了卖显卡发明了“GPU(图形处理单元)”这个词,Groq专门发明了“LPU”,指的是“语言处理单元”,专门用于大语言模型推理任务。

Groq 表示,LPU芯片速度比H100快10倍,成本仅为其十分之一,可以说把大模型的速度从“功能机”水平提高到了“智能机”水平,在英伟达最尴尬的时刻成功成为市场“新宠”。

被撬开的裂缝

围绕Groq LPU的讨论形成了两个方向。国外开发者借助Groq LPU开启了各式DIY,来自不同应用的开发者发出同样的感叹:速度太快了!国内的技术社区则围绕Groq LPU的成本展开辩论,对LPU背后的技术来了一场深入解读。

Groq给出数据,它的LPU能以十分之一的推理成本,提供10倍于英伟达H100的速度。

这一说法引起了质疑。AI科学家贾扬清的计算数据显示,Groq LPU虽然快,但每年的用电成本与H100相比多出了10倍。更多的讨论确认,Groq LPU既没有运营成本的优势,也没有采购成本的优势。

原因很简单,Groq指的“推理成本”主要用来衡量性能,它指的是“energy efficient”。业内描述成本,会使用直接与用电量挂钩的“power efficiency”。这意味着,LPU对比H100测试的数据好看,但实际的参考价值不高。

此外,一个Groq LPU的内存容量是230MB,一个H100的内存容量是80GB。那么跑同样大小的大模型,需要更多数量的Groq LPU。

Groq LPU集群有惊人的算力,带来了非常高的吞吐量和容量,造成非常高的的耗电量的同时,表现在推理上就是我们看到的非常高的输出速度和非常低的延迟。

然后这并没有成为Groq LPU进入市场的障碍。

爆火之后,Groq创始人乔纳森·罗斯(Jonathan Ross)在社交平台X上秀出芯片交货的照片,对外暗示,已经成功在AI芯片市场打开了局面。

几乎在一周内,Groq组建了新部门Groq Systems,专注于为客户和开发者构建生态;同时宣布收购初创公司Definitive Intelligence,强化GroqCloud业务;紧接着联手沙特阿美,双方共同构建GroqCloud的推理功能。

此外,Groq LPU不依赖三星或海力士的HBM以及台积电的CoWoS封装,供应链完全在北美,使用成熟的14nm工艺。可以说绕开了几乎所有造成主流芯片供应紧张的因素。而创始人罗斯则进一步表示,今年将部署4.2万个LPU,争取通过合作扩大部署到22万个,到明年部署150万个。

似乎,英伟达主导的AI芯片市场被撬开了裂缝。

AI专用芯片领域的创业公司不下百家,其中不少公司声称旗下的芯片比肩H100,但很少有哪个产品经得起Groq LPU所经历的讨论。Groq创始人乔纳森·罗斯对市场有自己的理解,他认为“没有人购买一件东西是因为这件东西更好,而是因为他们有未解决的问题。Groq做的事情非常不同。”

Groq LPU设计与CPU或GPU形成鲜明对比,它所采取的“软件定义”的理念,在自动驾驶、网络、存储和其他硬件中正逐渐成为趋势。

专用芯片的确定性

经典的“软件吞噬世界”总结和预言了互联网的.com和APP时代,前特斯拉人工智能总监安德烈·卡帕斯(Andrej Karpathy)强调了“软件2.0”的概念,也就是“软件吞噬世界,AI吞噬软件”。

过去的软件是用Python、C++等语言编写的,程序员能够解释其中的每一行代码,这代表了“软件1.0”。安德烈·卡帕斯认为,“软件2.0”指的是抽象的神经网络,程序员只能编写框架,几乎没有办法深入其中。与二进制文件或脚本相比,神经网络的矩阵乘法在许多计算配置上都可以运行起来。随着神经网络成为标准的商品,软件优先,软件定义硬件成为可能。

安德烈·卡帕斯基于这一理念帮助特斯拉推出了自动驾驶系统,并且从一开始就坚定地使用基于视觉的算法,不依赖激光雷达和高清地图。

今天,神经网络算法被用来解决科学、交通、安全等领域的各种问题,由于深度神经网络需要巨量的矩阵计算,是典型的计算密集型任务。大模型的爆发则进一步增加了计算规模和复杂性,给传统CPU和GPU架构带来了挑战。

CPU和GPU的微架构不是为深度神经网络而设计,但它们固有的许多特性又使得其中指令执行的顺序和时序变得不确定且难以推理。比如在大语言模型当中,计算处理通常是串行的而不是并行的,如果没有第N个值,则无法预测第N+1个值。因此,采用并行设计的GPU不能在大语言模型中跑出完整的高性能。

Groq表示正是“受到软件优先思维的启发”更新了芯片架构,针对串行任务优化,并消除了芯片中的无关电路。这种设计与GPU形成鲜明对比,GPU就像一个大型的工作车间,工作人员穿行于不同环节处理工作。LPU则提供了一条装配线,可以以顺序的、有组织的方式处理数据任务。

Groq用了很长时间才有了这些思路,Groq的风险投资人查马斯·帕里哈皮蒂亚(Chamath Palihapitiya)在一档播客中分享了Groq团队初创期间的失败经历。

Groq曾在特斯拉早期考虑激光雷达方案时寻求合作,遭到了“善意拒绝”。后来团队考虑把技术卖给做高频交易的客户以及三信机构,都以失败告终。直到看到了英伟达的CUDA,Groq团队认识到必须构建一个高级编译器,从而能够适配各种模型。自成立以来,Groq几乎用了一半的时间投入到编译器研发上。

Groq LPU实现了软件定义硬件,芯片将管理权交给编译器,编译器负责调度和执行控制,承担了不确定性的任务,这保证了芯片硬件专注处理确定性的计算。这种方法从根本上绕过了传统的、以硬件为中心的架构模型的限制,成为了Groq LPU低延迟和高吞吐量的基础。

“软件定义”不是新鲜的概念,但这几年再次流行起来。比如,英特尔就在基辛格的带领下提出了“软件定义、芯片增强”战略。基辛格表示,软件间接定义了英特尔的代工战略以及工厂生产加速器芯片的能力。在智能驾驶领域,软件定义汽车几乎是所有玩家确定的方向。

Groq把“软件定义”应用到芯片设计当中,也进一步拓展到芯片集群。Groq表示,相比较其它云算力,经Groq Cloud加速的大模型速度可以提高18倍。

通用芯片的瓶颈

今天的大模型由A100、H100等通用GPU提供支撑,这些GPU能够提供庞大的FLOPs算力,满足大模型对训练数据的需要。然而,一旦到了训练之后的推理应用环节,通用GPU的瓶颈进一步被放大。

Transformer为代表的自回归模型在推理过程中需要多轮重复计算,生成每一个token,都会将所有输入过的token反复计算。那么,每生成一个token,都需要与内存进行数据交互,这个过程称为“访存”。如果生成长序列的内容,访存的速度就决定了生成的速度。

即使对于H100这样的通用GPU,在推理环节也面临访存速度的限制。财通证券在报告中提到,目前全球最先进AI芯片的计算速度“远快于”内存带宽。访存速度限制了推理速度,造成算力的利用率太低。

换句话说,大模型厂商和公司高价、排队买来的H100,实际并不能物尽其用。更低的算力利用率等同于在增加芯片的采购成本。

业内普遍通过减枝、蒸馏、算子优化等方法提高利用率,这些方法又不可避免地影响了模型的质量。

英伟达H200芯片选择按部就班,搭载美光新一代HBM3e内存,峰值内存带宽大幅提升44%。

Groq的方法是使用SRAM替换HBM,借助SRAM自身优势,在单芯片上把内存带宽拉高到了80TB/s,直接使推理速度得到了数量级提升。这一思路在Graphcore、平头哥的产品上都出现过,Groq做得比较彻底,它完全使用了SRAM。

另外,Groq LPU采用了14nm芯片工艺,2025年推出的下一代将采用三星的4nm,从而换来更多的计算矩阵和SRAM。The Next Platform预估,现在需要576个LPU才能完成70B大模型推理,到2025年可能只需要大约100个。

同时,Groq将使用三星在北美的4nm工厂,最大限度地规避了供应瓶颈。这也是为什么Groq LPU仍然有市场。黄仁勋在财报电话会议上表示,AI芯片总体供应状况正在改善,但预计供不应求的状况仍将贯穿2024年全年。

Groq风险投资人查马斯认为,今天的人工智能更多的是概念验证,或者是玩具应用程序,难以作为商业产品广泛交付给企业客户。原因很大程度上在于大模型效果不够好、速度太慢,需要太多的基础设施和成本。在向商业成果转化的过程中,LPU适合各种规模的开发商,Groq将有机会在商业化上实现飞跃。

Groq把客户群体分为三类,大规模数据中心、全球3000强企业,以及其它所有人。查马斯透露,在Groq LPU爆火的短时间内,注册客户大部分来自规模公司。

Groq高管在接受《The Futurum》采访时透露,他们相信全球3000强代表了LPU 的重要市场。全球3000强开外的企业倾向于尝试API等基于云的产品。越来越多的企业告诉Groq,他们希望独立拥有其专有数据,许多企业正在考虑增加本地数据中心,而不是仅与数据中心供应商合作。

相关内容

热门资讯

PS会员越来越贵,索尼:订的人... 这次涨价也让PLUS会员价达成了新“里程碑”。以港服会员价格为例,三档会员的年费售价已达一千港币,二...
建科智能获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示建科智能(300823)新获得一项实用新型专利授权,专利名为“...
浙江乘屹智能装备取得钢带卷抓手... 金融界2025年6月26日消息,国家知识产权局信息显示,浙江乘屹智能装备有限公司取得一项名为“钢带卷...
生成式AI“未保”怎么做?专家... 生成式人工智能正迅速进入未成年人的数字生活,渗透学习辅助、社交陪伴等场景。与此同时,AI绘画软件随意...
突发!小米辟谣YU7大定5分钟... 最新消息显示,小米集团公关部总经理王化最新辟谣称,虽然今晚(6月26日)小米YU7的成绩非常亮眼超出...
原创 v... 华为在折叠屏手机市场的地位确实不可动摇,今年一季度以77%的市场份额遥遥领先于竞争对手。 据说在折叠...
把“性价比”刻进火箭DNA里 ... “活力中国调研行”主题采访活动这两天持续在北京开展。其中,北京商业航天创新发展成为记者关注的一个热点...
原创 伊... 文/珠玑说 (本文所有内容皆有官方可靠信源,具体资料赘述文章结尾) 伊朗最近展开了一场全国范...
江西车仆取得机油快速检测装置专... 金融界2025年6月26日消息,国家知识产权局信息显示,江西车仆实业有限公司取得一项名为“一种机油快...
洛克机械取得一种翻箱机构专利,... 金融界2025年6月26日消息,国家知识产权局信息显示,洛克机械(天津)有限公司取得一项名为“一种翻...
中国电信河北保定分公司推动营维... 近年来,随着用户需求从单一向多元、从主动到店向居家购物的转变,信息通信行业面临更高要求。面对用户需求...
吉林大华取得智能化管理系统装置... 金融界2025年6月26日消息,国家知识产权局信息显示,吉林大华科技集团有限公司取得一项名为“一种智...
中建八局一公司取得一种基坑监测... 金融界2025年6月26日消息,国家知识产权局信息显示,中建八局第一建设有限公司取得一项名为“一种基...
从夏季达沃斯论坛上看智能科技驱...   6月26日,在国家会展中心(天津),Workera创始人兼首席执行官卡坦福鲁什(右二)在分论坛发...
小米科技生态站上新起点:首款S... 6月26日,小米人车家全生态发布会在北京召开,小米集团创始人、董事长兼CEO雷军宣布小米汽车旗下首款...
广西灵山荔枝园引入AI无人机,... 在广西灵山县,一场由人工智能引领的农业变革正在悄然上演。这里,42万亩的荔枝园不仅承载着千年的种植历...
两次失败后,澳首枚国产自研火箭... 澳洲首枚国产自研火箭即将在一周内发射升空。Gilmour Space Technologies已确 ...
售货机物联卡全天候稳定在线秘籍... 在智能化零售领域,售货机物联卡的稳定性是确保设备高效运行的关键。为此,我们必须从物联卡的选择、硬件优...
北京132款大模型备案上线 数... 中新网北京6月26日电 (记者 吕少威)记者26日从北京“两区”建设五周年系列新闻发布会数字经济专场...
“天关”卫星发现新型暂现X射线... “天关”卫星发现新型暂现X射线天体 记者今天(26日)从中国科学院国家天文台获悉,中国科学院主导的...