马斯克推最强Grok 4!人类终极测试干翻OpenAI,包月费超2千元
创始人
2025-07-10 16:21:54
0

在“人类的最后考试”(Humanity’s Last Exam)中,Grok 4在无需“工具”的情况下取得了25.4%的准确率,超过了谷歌Gemini 2.5 Pro的21.6%OpenAI o3(高版本)的21%

配备“工具”的Grok 4 Heavy获得44.4%的得分,优于配备工具的Gemini 2.5 Pro的26.9%

▲Grok 4在Humanity’s Last Exam测评中取得第一

“就学术问题而言,Grok 4在各个学科上都比博士水平高,无一例外。”马斯克在直播中说,“有时,它可能缺乏常识,而且它还没有发明新技术或发现新的物理学说,但这只是时间问题。”

▲埃隆·马斯克在直播中发言

xAI还推出了迄今为止最昂贵的AI订阅计划——每月300美元的Super Grok Heavy。订阅者可以抢先体验Grok 4 Heavy,并抢先体验新功能。这些新功能包括但不限于:将于8月推出的AI编码模型,9月推出的多模态智能体,以及10月推出的视频生成模型。

每月300美元的Super Grok Heavy正式推出

直播结束后,马斯克在X上发文称:“你可以将整个源代码文件剪切并粘贴到Grok上的查询输入框中,然后@Grok 4 会帮你解决,比Cursor更好用。”

▲马斯克在社交平台X上发言

除此之外,xAI推出了Grok 4 API。xAI的企业部门仅成立两个月,但它计划与超大规模企业合作,通过其云平台提供 Grok。

近几个月来,xAI不仅拿下100亿美元最新融资,还收购了社交平台X,这也让最新推出的Grok 4成为产业的关注焦点。Grok 4能否成为对打OpenAI计预告今夏推出的GPT-5的有力对手?让我们来一起先睹为快。

一、Grok 4测评赶超OpenAI o3,马斯克:科研能力强过人类博士

马斯克在直播中称,在人文、语言、数学、物理、工程等多个基准测试中,Grok 4都取得了好成绩。“有些人认为AI不能推理,但Grok 4的推理能力可以超越人类水平,比几乎所有学科的研究生同时都聪明。”马斯克说。

xAI的研究人员称,Humanity’s Last Exam测试极具挑战性,总共有2500个问题,包括数学、自然科学、工程以及所有人文学科,问题广泛且都是博士甚至高级研究水平,Grok 4在这些问题上可以得到很好的分数。

Grok 4在无需“工具”的情况下,在“测试中获得了25.4%的准确率,超过了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3(高版本)的21%。马斯克称,在学术问题方面,Grok 4比每个学科的博士水平都要好,现在没有例外。他预测Grok 4最快今年就能去发明新技术了,两年之内就能发现新物理学说。

在GPQA、AIME25、LCB(Jan-May)、HMMT25等多项测评中,Grok 4都超越了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等模型。

而在ARC-AGI-2测试中,Grok 4取得了新的最高得分,得分为16.2%。ARC-AGI-2测试是另一项高难度基准测试,包含类似谜题的问题,要求AI识别视觉模式。Grok的得分几乎是排名第二的商业AI模型Claude Opus 4得分的两倍。

二、训练量级达到Grok 2 100倍,Grok 4将与人形机器人互动

从Grok2到Grok 4,每一次迭代xAI都增加了一个数量级的训练,因此Grok 4的训练量级达到了Grok 2的100倍,这使得智力增长非常显著。

这是xAI第一次像预训练一样扩大训练规模。基于拥有10万块H100 GPU的超级算力中心,训练主要包括两种类型:一个是从Grok 2到Grok 3到的预训练,一个是从Grok 3到Grok 4在推理中投入了大量的算力。

谈及幕后,如图所示,当投入越来越多的训练算力,模型开始逐渐变得越来越聪明,最终在没有任何工具的情况下,解决了四分之一的Humanity’s Last Exam测试问题。

接下来研发人员做的是向模型中添加工具功能。与Grok 3不同的是,研发人员使其更加本地化,将工具放入训练中,从而显着提高了模型使用这些工具的能力。

马斯克透露,今年晚些时候,Grok 4还将融合有限元分析、计算流体动力学等更强大的工具进行训练,将打造非常精确的物理模拟器,比如去做提供精确的黑洞模拟等任务。最终,Grok 4最大的区别在于,其将能够通过人形机器人(如擎天柱)与现实世界互动。

马斯克说,我们正处于智能大爆炸的开端。我们需要确保AI是一个好的AI,安全最重要的事,AI需要最大限度地寻求真理。你可以把AI看作是超级天才的孩子,最终会比你聪明,但你仍然可以灌输正确的价值观并鼓励它长成想要的样子。

除了计算之外,还有一个技术问题是数据瓶颈。研发人员称,在强化学习训练过程中,他们实际上已经没有可用来测试的问题了,已有的问题对AI来说正在迅速变得微不足道。

但马斯克称,最能出色判断事物的就是现实。如果物理学是定律,最终其他一切都是建议。你不能打破物理。因此,我认为对于AI的最终测试是现实。就像你发明一项新技术,比如改进汽车或火箭,它有效吗?现实才是最终的裁判。所以这将是一个围绕现实的强化学习闭环。

三、现场演示:看论文进行现实模拟,语音模式延迟减少一半

xAI研究员在直播中演示了Grok 4回答问题的能力。

Grok 4的一大特点是能够理解世界,并通过利用工具来解决难题。比如要求Grok 4生成两个黑洞碰撞的可视化图像,它有一些清晰的思考过程,比如,为了让它真正可见,Grok 4考虑到通过海浪的形式扩放它的规模。从思考过程看,Grok 4使用了搜索,从一堆链接中收集结果,参考了现有的现实世界数据,而且还阅读了分析引力波模型的本科论文。

除此之外,xAI还演示了Grok 4解答数学问题、创建一个基于X个帖子的时间线、查看Humanity’s Last Exam测试成绩等问题。

在多模态测试方面,Grok 4分数略有下降。马斯克坦言,Grok 4的基本弱点是它部分盲目地理解图像生成偏好。Grok 4的多模态理解能力正在改进,这些问题将在几周内实现改善。

Grok 4的语音模式也进一步更新,已将延迟减少了一半。Grok 4今天推出一系列更具自然性和韵律的新声音,API版本也将发布。

四、推出Grok 4企业API,编程、多模态、视频模型在路上

xAI的企业部门仅成立两个月,但它正在通过其API发布Grok 4,已有各行业企业通过云平台使用了Grok 4。

聚焦现实的自动售货机商业场景,xAI的客户团队采用了大模型管理库存、联系供应商,大多数模型在去进行长线任务时都很困难。但使用了Grok 4 API之后,团队获得了令人印象深刻的结果。它设法运行模拟的时间翻了一倍,得分也翻了一倍,前后能保持较强一致性。

聚焦AI创作游戏方面,Grok 4可以在4个小时内制作的第一人称射击游戏。制作游戏并不一定是对游戏的核心逻辑进行编码,而是去寻找所有资源、文件素材,以创建一个具有视觉吸引力的游戏。对于开发人员来说,你可以专注于核心开发本身,让Grok 4去整理所有资产,自动化完成任务。

未来Grok 4将具有出色的视频理解和改进的工具使用能力,例如可以使用虚幻引擎生成艺术品模型,然后创建一个可在PC或手机上运行的可执行文件。xAI预计第一个真正优秀的AI视频游戏将在明年出现。

除此之外,马斯克透露,团队目前正在加大力度训练编码模型,在未来几周内将推出一个专业的编码模型。编码任务展现了Grok 4的弱点,即多模态能力。就像透过玻璃眯着眼睛看世界,看到所有模糊的特征,并试图感知它。xAI将在下一代模型中看到的最直接改进是,模型在理解图像和音频方面会能力逐步提高。

在视频模型方面,xAI将在接下来三到四周开始训练一个新的视频模型,具备出色视频生成和理解能力。

结语:抢发Grok 4,马斯克对战GPT-5

Grok 4在高难度测试中展现的“超越博士水平”的推理能力,在理解和解决复杂问题方面迈出了关键一步。其通过工具加持实现的新能力,以及雄心勃勃的多模态与视频生成路线图,展现了xAI与即将发布的OpenAI GPT-5竞赛的决心。

在To B端落地,xAI正加速将Grok 4的能力从企业应用到零售、游戏创作等领域。同时,马斯克强调的“安全至上”与“寻求真理”的AI发展原则,以及对现实世界作为最终测试场的认知,为这场席卷全球的智能爆炸提供了不可或缺的思考维度。

相关内容

热门资讯

周红波:全球首个也是目前唯一将... 文/翁炫 在位于苏州工业园区纳米科技城的汉纳实验室里,周红波拿着一小块黑色薄膜自豪地说:“我们把概...
Grok 4号称“全球最强AI... 「这是世界上最聪明的人工智能。」 尽管比原定发布会时间推迟了近一个小时,但在今天中午(北京时间 9 ...
“江苏地质号”卫星出征 吉林一... 上证报中国证券网讯(记者 田甜)7月10日,长光卫星技术股份有限公司(下称“长光卫星”)在吉林省航天...
科学杂谈:一秒钟有多久? 1秒钟有多久?这个问题似乎不难回答。1天被分为24小时,每1小时被分为60分钟,而每分钟又被细分为6...
嫦娥六号玄武岩样品最新研究:破... 中新网北京7月10日电 (记者 孙自法)中国科学家对嫦娥六号采自月球背面南极-艾特肯盆地(SPA)的...
哈工大录取通知书公布,将送20... 7月10日消息,哈尔滨工业大学近日公布了今年的录取通知书以及“哈工大小卫星梦想遨游计划”,要将202...
原创 液... 在数字经济时代,算力需求爆发式增长,能量密度急剧增加,数据中心正面临前所未有的散热挑战。传统风冷技术...
上海交大团队突破AI设计热辐射... 在科技日新月异的今天,人工智能(AI)正以前所未有的速度渗透至科研领域的各个角落,为传统科学难题的解...
慕思股份:以专业为引领 智慧睡... 在当今快节奏的生活中,睡眠质量成为人们日益关注的焦点。消费者对睡眠质量的关注度显著提升,也推动了床垫...
参宿四爆炸后亮度超月亮,半年不... 最近,我在网上看到一个特别有意思的话题,说参宿四要是爆炸了,亮度能超过月亮,而且这亮度啊,能持续半年...
轻量化设计某新能源主减-差速器... 摘要:为轻量化设计某新能源主减-差速器总成,对主减速从动齿轮(简称主减齿轮)采用新的工艺路线,即滚齿...
智元机器人回应“借壳上市”猜测... IT之家 7 月 9 日消息,智元机器人针对近日“借壳上市”的猜测做出最新回应。 昨日晚间,上纬新材...
数字体育:连接健康、科技与生活 本文转自【人民日报海外版】 作为体育与科技深度融合的新兴产业,数字体育正加速迈向发展风口,不仅助力体...
归来后正式亮相!神十九乘组分享... 7月9日下午,神舟十九号航天员乘组蔡旭哲、宋令东、王浩泽从太空返回60余天后,在北京航天城首次面向媒...
“互联网+”驱动农副产品新生态... 随着人们生活水平不断提高,健康饮食和绿色消费理念逐渐深入人心,农副产品作为餐桌上的重要组成部分,也迎...
ULP睿池 物联网+围板箱:智... 在数字化浪潮席卷各行业的当下,物联网技术与传统物流包装的融合正催生出全新的变革。围板箱作为物流运输与...
12位图灵奖、诺奖得主参会!2... 7月10日,记者从2025世界人工智能大会暨人工智能全球治理高级别会议”(简称“WAIC”)新闻发布...
哈工大2025录取通知书发布:... 2025-07-10 10:42:05 作者:狼叫兽 近日,哈尔滨工业大学发布了2025级本科新生...
品高股份携手江原科技推出首个全... 7月9日,品高股份联合深圳江原科技有限公司(以下简称“江原科技”)在深圳联合举办新品发布会,正式推出...
武汉硚口赴沪揽获20个前沿产业... 交流会现场 黄浦江畔夏意浓,汉沪携手启新程。7月9日下午,“走进长三角 硚见新机遇”2025楚商聚硚...