Groq的LPU将成为继NVIDIA GPU的又一“新宠”?
创始人
2024-02-22 20:34:22
0

原标题:Groq的LPU将成为继NVIDIA GPU的又一“新宠”?

作者:毛烁

几乎在你按下发送按钮的瞬间,大模型便以惊人的速度完成了回复的生成。这一次,Groq大模型以每秒500个token,彻底颠覆了GPT-4的40 tok/s的速度纪录!

Groq之所以“出圈”,缘于其惊人的速度,自称“史上最快大模型”!而让其冠绝大模型圈子的响应速度,来自驱动模型的新型AI芯片——LPU(Language Processing Units)。

Groq家的LPU“不走寻常路”

LPU旨在克服两大大语言模型(LLM)的瓶颈——计算密度和内存带宽。与GPU和CPU相比,LPU在处理LLM方面具有更大的计算能力。这减少了每个单词计算所需的时间,使文本序列能够被更快地生成。此外,消除外部内存瓶颈使得LPU推理引擎能够在性能上实现数量级的提升。

与专为图形渲染而设计的GPU不同,LPU采用了一种全新的架构,旨在为AI计算提供确定性的性能。

GPU采用的是SIMD(单指令多数据),而LPU采取了更为直线化的方法,避免了复杂的调度硬件需求。这种设计允许每个时钟周期都被有效利用,确保了一致的延迟和吞吐量。

简单来说,如果把GPU比作一支精英运动队,每个成员都擅长处理多任务,但需要复杂的协调才能发挥最佳效能,那么LPU就像是一支由单一项目专家组成的队伍,每个成员都在他们最擅长的领域中以最直接的方式完成任务。

对于开发者而言,这意味着性能可以被精确预测和优化,这在实时AI应用中至关重要。

在能效方面,LPU也展现出其优势。通过减少管理多线程的开销并避免核心的低效利用,LPU能够以更低的能耗完成更多的计算任务。

Groq还允许多个TSP无缝连接,避开了GPU集群中常见的瓶颈问题,实现了极高的可扩展性。这意味着随着更多LPU的加入,性能可以线性扩展,简化了大规模AI模型的硬件需求,使开发者能够更容易地扩展他们的应用,而无需重新架构系统。

举例来说,如果把GPU集群比作一座由多条桥梁连接的岛屿,尽管可以通过这些桥梁访问更多的资源,但桥梁的容量限制了性能的提升。而LPU则像是设计了一种新型的交通系统,通过允许多个处理单元无缝连接,避免了传统瓶颈问题。这意味着随着更多LPU的加入,性能可以线性扩展,大大简化了大规模AI模型的硬件需求,使得开发者能够更容易地扩展他们的应用,而无需重新架构整个系统。

快如闪电的Groq到底好不好用?

尽管LPU的创新举措令人瞠目,但对于通用大模型而言,好不好用才是关键。

我们对于chatGPT和Groq 提出了相同的需求,且没有经过二次对话。

不论内容正确与否,单从语言风格上看,从两款模型给出的反馈不难发现,Groq 的回复一板一眼有些生硬,很浓的“AI味”,而chatGPT则相对自然,对于人类语言(中文)习惯的“领悟”更加透彻。

接着我们又问了几乎同样的问题,它们的回答这这样的:

GPT的语言风格把“人情世故”吃的透透的,而Groq依旧是“AI味”浓厚。

能不能取代英伟达的GPU?

伴随着Groq极速狂飙的同时,出现了一票声音——英伟达的GPU是否已经落后了?

然而,速度并不是AI发展的唯一决定性因素。在讨论大型模型推理部署时,7B(70亿参数)模型的例子很能说明问题。

目前,部署这样一个模型大约需要14GB以上的内存。以此为基础,大概需要70个专用芯片,每个芯片对应一张计算卡。如果采用一种常见的配置,即一个4U服务器装载8张计算卡,那么部署一个7B模型就需要9台4U服务器,几乎占满了一个标准的服务器机柜。总共需要72个计算芯片,这样配置下的计算能力在FP16模式下达到了惊人的13.5P(PetaFLOPS),而在INT8模式下更是高达54P。

以英伟达的H100为例,其拥有80GB的高带宽内存,可以同时运行5个7B模型。在FP16模式下,经过稀疏化优化的H100的计算能力接近2P,在INT8模式下则接近4P。

一位国外的博主作了对比,结果显示:以INT8模式进行推理,使用Groq的方案需要9台服务器。而9台Groq服务器的成本远高于2台H100服务器。而Groq方案的成本超过160万美金,而H100服务器的成本为60万美金,这还未包括机架相关费用和电费开销。

对于更大的模型,如70B参数模型,使用INT8模式可能需要至少600张计算卡,接近80台服务器,成本更是天文数字。

事实上,于Groq的架构来讲,或需要建立在小内存,大算力上,让有限的被处理的内容对应着极高的算力,导致其速度非常快。

而对于部署推理能力的大模型,性价比最高的,依旧是英伟达的GPU。

相关内容

热门资讯

南王科技获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示南王科技(301355)新获得一项实用新型专利授权,专利名为“...
大模型应用:(五)大模型检索增... 今天分享的是:大模型应用:(五)大模型检索增强 报告共计:30页 大模型如何告别“胡编乱造”?检索增...
全场景智能操作系统再进化,鸿蒙... 鸿蒙全场景智能操作系统再进化,HarmonyOS 6开发者Beta版面向开发者启动报名,这是华为开发...
国内首家!三代人,一条心,书写... 上个月月底,海宁鹃湖边,一座高度设计129米的科技地标开工建设。这是海宁天通集团的智慧港项目,这12...
鸿蒙炸裂升级!华为对OS的野心... 在2024年的HDC上,华为正式宣布纯血鸿蒙的开发者计划,一场系统生态的革命正式拉开序幕。当时间过去...
HarmonyOS 6开发者B... (中国,东莞2025年6月20日)在2025年华为开发者大会(HDC)上,华为正式启动Harmony...
亿合太阳能取得光伏支架快速安装... 金融界2025年6月21日消息,国家知识产权局信息显示,安徽省亿合太阳能电力有限公司取得一项名为“一...
鸿蒙的635个日夜:超3万个鸿... 6月20日,华为开发者大会(HDC 2025)正式拉开序幕。会上,华为方面分享了鸿蒙生态在应用开发领...
14款大模型能耗爆炸:Deep... 智东西 编译 | 陈骏达 编辑 | Panken 跟AI聊天,究竟会消耗多少能源? 智东西6月20日...
“人机共跑”勾勒智能发展图景 近日,安徽省全民健身追光夜跑城市系列赛(启动赛)在合肥骆岗公园鸣枪开跑。夜色中,国内首款产业化落地的...
脸萌申请流程图显示方法及设备专... 金融界2025年6月20日消息,国家知识产权局信息显示,脸萌有限公司申请一项名为“流程图显示方法及设...
重庆华茂纸业取得纸箱夹取抓具专... 金融界2025年6月21日消息,国家知识产权局信息显示,重庆华茂纸业有限责任公司取得一项名为“一种纸...
MWCS 2025 |广和通“... 6月18日至20日,2025世界移动通信大会•上海(MWCS 2025)在上海盛大开幕,全球目光再次...
英国研发新型机器人皮肤   新华社北京6月21日电 英国研究人员近期研发出一种由柔软且低成本的凝胶材料制成的新型机器人皮肤,...
人工智能赋能电网,杭州电力正打... 潮新闻客户端 记者 施雄风 通讯员 富岑滢 屠永伟 6月20日,2025国家能源互联网大会在杭州开幕...
一线调研丨自主创新 城市“充电... 如今,风电、光伏发电增长迅速,但却是“靠天吃饭”,具有波动性、随机性和间歇性,无法做到随用随发,因此...
泰波尔生物取得胆酸层析分离装置... 金融界2025年6月21日消息,国家知识产权局信息显示,四川省泰波尔生物科技有限公司取得一项名为“胆...
国家药监局:支持高端医疗器械创... 转自:证券时报 人民财讯6月20日电,国家药监局今天(6月20日)审议通过《关于优化全生命周期监管支...
Anthropic警告:包括C... 6 月 21 日消息,据外媒 TechCrunch 今日报道,在数周前发布研究指出其 Claude ...
跨境支付通明日上线,内地香港居... 跨境支付通将于6月22日正式上线,这是一项旨在提升内地与香港跨境支付效率和便利性的创新服务。通过跨境...