Grok 4号称“全球最强AI”?其实是马斯克的自吹自擂
创始人
2025-07-10 21:20:50
0

「这是世界上最聪明的人工智能。」

尽管比原定发布会时间推迟了近一个小时,但在今天中午(北京时间 9 月 10 日),xAI 创始人马斯克还是发布了新一代大模型 Grok 4。

纸面上,Grok 4 已经全面超越了所有竞争对手,包括 OpenAI o3、Gemini 2.5 Pro 以及 Claude 4 等当前的顶级大模型,不管是传统的基准测试,还是 SAT 考试(美国高考)以及各个学科的 GRE 水平测试。

但比起这些已经有点乏味的传统基准测试,更有意思的是,Grok 4 还跑了被成为「人类最后一场闭卷考试」的 Humanity’s Last Exam(简称 HLE 测试),并超越此前一众模型,实现了最高 44.4% 的准确率。

图/ xAI

马斯克在直播中也指出,Grok 4 比几乎所有学科的所有研究生都更聪明,而至少在学术问题上,也优于所有学科的博士水平,「没有例外。」

这还不是 Grok 4 全部潜力。按照马斯克的说法,Grok 4 基础模型的第七版将在本月完成,然后将进行后训练 RL(强化学习)等,最终也会拥有出色的视频理解能力和工具调用能力。按照路线图,接下来几个月 xAI 还会推出代码模型、多模型智能体以及视频生成模型。

图/ xAI

此外,它们还推出了一项更高等级的订阅服务——SuperGrok Heavy,能够使用「最强模型」Grok 4 Heavy。

不过相比纸面上的无敌,在实际演示过程中,Grok 还是会出现比较低级的错误。更耐人寻味的是,就在 Grok 4 发布前几个小时,xAI 首席科学家 Igor Babuschkin 突然宣布了辞职。

自称“最强大模型”的Grok4,到底聪明在哪?

从技术视角出发,Grok 4 并不只是一次「常规迭代」。在这场 40 多分钟的发布直播中,xAI 试图传达的信息是:这不仅是一个在挑战人类智能的新模型,还是一个应用潜力巨大的 AI。

马斯克将 Grok 4 称为「在所有学科都超过博士水平」,并不完全是营销夸张。在 AIME25、HMMT25、GPQA 等主流基准测试中,Grok 4 将大模型的成绩进一步推向了极值,其中 Grok 4 Heavy 甚至在 AIME25(美国数学竞赛邀请赛)上拿下了满分。

图/ xAI

但更具标志性的是 ARC-AGI 以及 HLE 测试。前者借由 OpenAI o3 的测试引起了业界重视,主要聚焦 AI 的「学习」能力,而非「技能」,Grok 4 在 v1 版本中超过 o3 实现了 66%的准确率,在最新的 v2 版本中更是大幅领先其他大模型,做到了 15.9%的准确率。

至于 HLE 测试,则代表了人类智能的极限,由全球专家联合提出 2500 个专业问题,涉及数学、生物、计算机科学、化学、物理、工程学以及人类学等等不同学科,所以直接被命名为「人类终极考试」。

图/ xAI

在 Grok 4 之前,排名第一的模型 Gemini 2.5 Pro 准确率为 21.6%,其次是 OpenAI o3 20.3%。相比之下,Grok 4 的准确率则提高到了 25.4%,并且在借助工具的完整形态下还能进一步提高到 44.4%。

现场演示中,xAI 就展示了 Grok 4 对 HLE 测试中专家级题目的准确,马斯克认为人类中也只有极少人能够准确。而类似的问题,还有 2499 个。

除此之外,还有一个基于商业场景模拟的 Vending-Bench(自动售货机基准测试),需要 AI 进行管理库存、联系供应商、设定价格等。从测试结果来看, Grok 4 比起 Claude Opus 4 以及真人的运营效率都要高,创造的净值是真人的 5 倍以上。

而在直播中,xAI 还进行了多项演示,包括实时抓取 X 平台上的帖子,整理出各家参与 HLE 测试的时间线,或是找出 xAI 团队中头像最古怪的那一个。既展示了 Grok 4 的能力,也强调了与 X 平台深度整合的优势。

图/ xAI

直播中生成时间最长的一个现场演示,则是 Grok 4 对于 2025 年 MLB 世界大赛冠军的分析预测,亮点主要在于它对工具、数据的使用和分析过程,包括浏览了很多赔率网站的数据来计算。而整个过程,耗时近 4 分半。

此外,Grok 4 还能遍览关键论文和资料来开发一个网页,模拟两个黑洞接触会发生的变化。马斯克还表示,接下来他们还会为 Grok 4 提供真正的专业工具,包括物理学家使用的专业拟真软件,并预测 Grok 4 明年或许就能发现新的物理定律。

这听上去过于夸张,也缺乏实质支撑,但马斯克的 AI 叙事可能并不在于赶超 Google 和 OpenAI,而是要改变目标本身。而且从产品设计角度看,xAI 正在尝试将 Grok 4 变成一个与信息流紧密耦合的 AI 工具,而不是一个只能回答问题的机器人。

图/ xAI

在模型理解维度,Grok 4 还展示了对多模态输入的部分能力。尽管现场没有正式演示图像理解和生成能力,但马斯克强调了其「正在训练」。这意味着 Grok 4 的完整形态仍会是多模态大模型,而非 DeepSeek-R1 这样仅支持文本的推理模型。

换言之,这也意味着 Grok 4 能处理更复杂的感知输入,进一步拓展在现实世界的适用场景——例如人形机器人、自动驾驶、科研建模等。

值得一提的是,马斯克在直播中提及,「Grok 4 Heavy」才是当前最强版本,在推理、编码乃至物理学原理的理解上都胜过通用版模型。但 Heavy 版本目前仍处于内测阶段,且暂未向公众开放。

而在 Grok 4 的发布背后,是 10 倍于 Grok 3 的训练算力,也是 xAI 数月前在美国孟菲斯完成部署的超算集群「Colossus」。按照透露,这套超算塞下了 10 万张英伟达 H100 GPU,并可能率先部署 GB200 计算节点。

一次仓促的直播发布,Grok其实已麻烦缠身

如果只看模型本身,Grok 4 的确展示了不容忽视的实力。尤其在这次直播中,Grok 的语音能力也迎来了升级——不仅能够自然地切换语调,还新增了包括英式发音在内的多个声音角色。xAI 甚至展示了 Grok 可以「唱歌」,并在指令下朗读诗歌。

问题也出现在这里。在交互中,Grok 被要求「唱一首歌」,但却进入了「念诗」状态,用朗读语气念出了歌词。虽然是个小失误,却暴露出语音模型背后对多模态理解尚不稳定的事实——唱歌不只是发音,而是旋律、语调和节奏的协同输出,Grok 显然还没准备好。

图/ xAI

类似的小插曲贯穿整场发布。发布直播原定时间比计划晚了一小时开始,没有任何解释。直播内容虽然丰富,但整体节奏略显仓促,功能展示之间缺乏过渡逻辑。一些演示明显是预先准备好的。这种略显仓促的节奏,与前一天高管的离职消息叠加后,难免让人联想到内部的不稳定。

就在发布当天,xAI 首席科学家 Igor Babuschkin 宣布离职,而在更早前,X 公司 CEO Linda Yaccarino 也辞去了职务,并留下了一句意味深长的话:「现在,随着 X 与 xAI 一起进入新篇章,最好的事情还在后头。」

两人一走,发布会一开,再加上马斯克在直播中多次表达的那种对 AI「太聪明」的担忧,构成了一种微妙的不安感:Grok 4 也许真的很强,但它背后的组织架构、产品节奏,可能并没有准备好迎接它自己造出的「智能飞跃」。

图/ xAI

更现实的问题是,Grok 4 还必须面对全世界最强的两个对手——OpenAI 的 ChatGPT,和 Google 的 Gemini。在技术实力逐渐追平的今天,真正的分水岭往往并不在于模型能不能答对一个考题,而在于平台、生态和用户。

更麻烦的是,Grok 还维持了一种「不一样」的姿态——有性格、敢说话、更自由。这是马斯克为它设计的人设。但也正是这种人设,让 Grok 更容易翻车。就像过去几个月,它因为生成偏激内容而引发舆论。

所以,这一代 Grok 4 确实很强,甚至可能已经比研究生乃至博士更聪明。但技术领先不代表用户信任,也不代表产品成熟,实际体验我们还是要看模型在实际体验中的表现。

马斯克在直播中一度表示,有点担心「AI 的智能远远超过人类」对于我们是好是坏,但又强调「已经某种程度上接受了这样的现实,即使它不是好的,我也至少想活着看到它发生。」

相关内容

热门资讯

1935.3克月球样品,首次揭... 7月9日,中国科学院发布嫦娥六号月球样品系列研究成果,四项重磅研究以封面文章形式发表于国际学术期刊《...
这波体验酷啊!他们都说“超过瘾... “知行虎门”第二天 有哪些精彩节目? 孩子们都有哪些收获? 一起来瞧瞧~ 航天飞行体验 在水濂小镇...
十篇齐发!《细胞》首次为中国脑... 7月10日深夜,由中国科学院脑科学与智能卓越技术创新中心领衔,我国科学家联合发布了10项重要成果,论...
Grok4成“宇宙最强模型”?... 21世纪经济报道记者孔海丽、实习生郑子涵 北京报道 虽然马斯克本人一脸疲态,但他亲自坐镇,给Grok...
关键部件全部国产化!全球单机功... 10日,中国华能集团有限公司(以下简称中国华能)宣布,全球单机功率和风轮直径最大的直驱型漂浮式海上风...
贴地飞行!时速600公里超导电... 7月8日至11日,第十二届世界高速铁路大会在北京举行,第十七届中国国际现代化铁路技术装备展览会同期举...
大屏化与AI驱动TV高端化浪潮 近日,在京东方投资者日活动中,京东方代表与行业伙伴、专家围绕TV高端化趋势以及LCD在多种显示技术中...
福建夫妻干出超级独角兽:用无人... 作者 | 铅笔道 松格 矿区内,无人驾驶矿卡已整齐排列,随着指令下达,这些矿卡缓缓启动,按照预设路线...
周红波:全球首个也是目前唯一将... 文/翁炫 在位于苏州工业园区纳米科技城的汉纳实验室里,周红波拿着一小块黑色薄膜自豪地说:“我们把概...
Grok 4号称“全球最强AI... 「这是世界上最聪明的人工智能。」 尽管比原定发布会时间推迟了近一个小时,但在今天中午(北京时间 9 ...
“江苏地质号”卫星出征 吉林一... 上证报中国证券网讯(记者 田甜)7月10日,长光卫星技术股份有限公司(下称“长光卫星”)在吉林省航天...
科学杂谈:一秒钟有多久? 1秒钟有多久?这个问题似乎不难回答。1天被分为24小时,每1小时被分为60分钟,而每分钟又被细分为6...
嫦娥六号玄武岩样品最新研究:破... 中新网北京7月10日电 (记者 孙自法)中国科学家对嫦娥六号采自月球背面南极-艾特肯盆地(SPA)的...
哈工大录取通知书公布,将送20... 7月10日消息,哈尔滨工业大学近日公布了今年的录取通知书以及“哈工大小卫星梦想遨游计划”,要将202...
原创 液... 在数字经济时代,算力需求爆发式增长,能量密度急剧增加,数据中心正面临前所未有的散热挑战。传统风冷技术...
上海交大团队突破AI设计热辐射... 在科技日新月异的今天,人工智能(AI)正以前所未有的速度渗透至科研领域的各个角落,为传统科学难题的解...
慕思股份:以专业为引领 智慧睡... 在当今快节奏的生活中,睡眠质量成为人们日益关注的焦点。消费者对睡眠质量的关注度显著提升,也推动了床垫...
参宿四爆炸后亮度超月亮,半年不... 最近,我在网上看到一个特别有意思的话题,说参宿四要是爆炸了,亮度能超过月亮,而且这亮度啊,能持续半年...
轻量化设计某新能源主减-差速器... 摘要:为轻量化设计某新能源主减-差速器总成,对主减速从动齿轮(简称主减齿轮)采用新的工艺路线,即滚齿...
智元机器人回应“借壳上市”猜测... IT之家 7 月 9 日消息,智元机器人针对近日“借壳上市”的猜测做出最新回应。 昨日晚间,上纬新材...