过去的一周,美国AI领域突飞猛进的发展。
在OpenAI推出视频生成模型Sora,震惊世界之际,人工智能芯片公司Groq也一夜走红。
Groq成立于2016年,总部位于美国加州圣塔克拉拉山景城。据外媒称,Groq闪电般快速的演示在周末疯传,使得当前版本的ChatGPT、Gemini甚至Grok看起来都很缓慢。Groq声称提供“世界上最快的大型语言模型”,第三方测试表明这一说法可能成立。
根据X上发布的演示,Groq瞬间给出了数百个单词的事实答案,并引用了沿途的消息来源。
在另一个演示中,Groq创始人兼首席执行官乔纳森·罗斯 (Jonathon Ross) 让 CNN 主持人进行了实时口头对话 与跨越半个地球的人工智能聊天机器人在电视直播中进行交流。
虽然 ChatGPT、Gemini和其他聊天机器人令人印象深刻,但 Groq 可以让它们快如闪电。足够快,可以在现实世界中拥有实际用例。
Groq创建了称为语言处理单元 (LPU) 的人工智能芯片,据称比 Nvidia 的图形处理单元 (GPU) 更快。Nvidia的GPU通常被视为运行AI模型的行业标准,但早期结果表明LPU可能会击败它们。
Groq是一个“推理引擎”,而不是像ChatGPT、Gemini或Grok那样的聊天机器人,可以帮助这些聊天机器人运行得非常快,但不会完全取代它们。在Groq的网站上,用户可以测试不同的聊天机器人,并查看它们使用 Groq的LPU的运行速度。
根据Artificial Analysis发布的第三方测试,Groq每秒生成247个令牌,而微软每秒生成18个令牌。这意味着如果ChatGPT在Groq的芯片上运行,其运行速度可以提高13倍以上。ChatGPT、Gemini 和 Grok 等人工智能聊天机器人如果速度更快,可能会更加有用。
当前的一个限制是这些模型无法跟上实时人类语音的速度。有些延迟会让谈话变得机械化。
谷歌最近伪造了Gemini演示,让Gemini看起来可以进行实时、多模式对话,但实际上它不能。但随着Grok速度的提高,该视频可能成为现实。
加入Groq之前,Ross是Google人工智能芯片部门的联合创始人,该部门生产用于训练人工智能模型的尖端芯片。Ross表示,通过LPU,Groq绕过GPU和CPU遇到的两个 LLM 瓶颈:计算密度和内存带宽。
尽管Groq受到了广泛关注,但其AI芯片是否具有与 Nvidia 的 GPU 或谷歌的 TPU 相同的可扩展性还有待观察。
如今,AI芯片是OpenAI首席执行官Sam Altman主要关注点,他甚至正在考虑自己打造人工智能芯片。Groq提高的芯片速度可以推动人工智能世界的发展,为与人工智能聊天机器人的实时通信创造新的可能性。
前阿里副总裁贾扬清用Groq进行了测试,称端到端时间为 0.4 秒,吞吐量接近 500。确实令人印象深刻。但因为Groq小的可怜的内存容量(230MB),在运行Llama-2 70b模型时,需要305张Groq卡才足够,而用H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。
来源:雷递网