“9.11比9.9大”,Grok3还不如小学生?“最聪明的AI”翻车
创始人
2025-02-19 21:22:23
0

来源:元宇宙新声

AI大模型的数字陷阱,连Grok-3都翻车

科技旋涡作者|贾桂鹏

日前,马斯克与xAI团队,在直播中正式发布了最新版本Grok3。

此前,马斯克将Grok-3描述为“地球上最聪明的AI”。他在X平台上表示:“自己整个周末都在和团队打磨产品。”

不过,据媒体报道,有人测试了最新的Beta版Grok3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的Grok3,仍然无法正确回答这个问题。

难道马斯克口中“地球上最聪明的AI”就给出了这种答案吗?Grok3到底行不行?

9.11和9.9哪个大这个看似很简单的问题为什么Grok3会出现错误呢?其实,大模型在处理“9.11”时,可能会将其拆分为“9”、“11”两个部分。由于小数点后的“11”大于“9”,这导致了错误地判断。

而且,在某些情况下,如日期或章节编号,9.11确实比9.9大。例如,“9月11日”比“9月9日”晚,“第9章第11节”也比“第9章第9节”晚。大模型可能在学习过程中积累了这些badcase,从而产生了错误的判断。

还有,在分析大模型的底层注意力机制时,我们发现大模型对小数点后的“11”和“9”更为关注。这可能是导致错误的原因之一。然而,当我们排除这些明显的可能性时,问题可能出在位置编码或大模型更底层的推理逻辑上。

因此,不仅是Grok3,包括ChatGPT在内的很多大模型都在这个问题上跌了跟头。

值得一提的是,用同样的问题询问DeepSeek时,无论是否开启深度思考(R1)模式,对方都给出了正确的答案:9.9大于9.11。

而且,除了这个数字问题外,在xAI发布会直播中,在分析游戏《流放之路 2》的职业与升华效果时,Grok 3也给出了大量错误答案,并且马斯克也没有看出这些明显的错误。

尽管在官方PPT中,Grok3在大模型竞技场Chatbot Arena中看似“遥遥领先”,但实际上其与DeepSeek R1和GPT4.0的差距仅为1%到2%。

不过,对此这个问题马斯克并不以为然,其公开回应称,当前的Grok 3仅是测试版,这个阶段错误越多越好,而完整版将在未来几个月推出,并邀请用户反馈使用问题。

另外,此外,马斯克在直播中透露,未来,最快一周后Grok应用程序将具备“语音模式”,这将为Grok模型提供合成语音。几个月后,xAI将开源上一代模型Grok 2。“我们的一般做法是,当下一个版本完全推出时,我们将开源上一个版本(Grok)。”

马斯克曾多次警告说,人工智能会给人类文明带来风险,但他仍在极力推动加大对这一领域的投资。

我们从本次发布的Grok 3里面,可以看出来,马斯克还是押注大算力AI,Grok 3无论在训练集群规模、用电量上都是首屈一指的,这也在一定程度上转化为了Grok 3在多个基准测试上的SOTA表现。不过,马斯克这次押注能不能成功,我们还要接下来继续看AI的发展。

相关内容

热门资讯

亚马逊、谷歌、微软等60家公司... 多知7月1日消息,据 Axios 消息称,美国政府周一宣布了一项“人工智能教育承诺”,超过 60 家...
自研技术畅通物流微循环——九识... 早上5点,在内蒙古河套平原巴彦淖尔磴口县,货箱上标注“九识ZELOS”的无人车装满近千票货物出发,向...
江苏畅颌取得一种独立式冷镦夹钳... 金融界2025年7月1日消息,国家知识产权局信息显示,江苏畅颌汽车零部件有限公司取得一项名为“一种独...
荣缘石化取得伸缩式鹤管专利,提... 金融界2025年7月1日消息,国家知识产权局信息显示,连云港市荣缘石化设备制造有限公司取得一项名为“...
2025年中国无人机竞速联赛第... 6月30日,2025年中国无人机竞速联赛(苏州站)在苏州市相城区苏州国际会议酒店隆重开幕!国际航联模...
压缩图片文件怎么弄?七个方便高... 在当今数字化时代,图片的使用场景愈发广泛,无论是用于社交分享、工作文档还是网站建设,图片文件的大小常...
AI智能体遭遇责任壁垒,Mix... 企业在关键应用中部署AI智能体面临挑战时,一种更加务实的新模式正在兴起,该模式将人类重新置于控制地位...
子洲县中药材智慧大棚育苗:科技... 阳光讯(郑懿 记者 高小雨)在子洲县,一座占地 500 多平方米的中药材智慧大棚正悄然改变着传统的育...
铜陵有色获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示铜陵有色(000630)新获得一项实用新型专利授权,专利名为“...
合成化学研究新范式:当AI“大... ·用人工智能(AI)来设计实验甚至在某些场合取代化学家的“直觉”,用机器人等自动化技术来高效做实验,...
原创 人... 咱生活的地球,一直在以大约 29.783 千米 / 秒的速度绕着太阳公转,差不多每 365 天就能转...
AI医疗重磅!华为+瑞金医院宣... 数据是个宝 数据宝 投资少烦恼 6月以来,AI医疗相关事件重磅不断。 6月30日,上海瑞金医院携手华...
小米16系列影像模组设计曝光 ... 【CNMO科技消息】7月1日,有数码博主曝光国产新旗舰的影像模组设计并透露了部分影像信息。根据网友猜...
疯狂挖人的扎克伯格推“超级智能... Meta首席执行官扎克伯格。图片来源:视觉中国 界面新闻记者 | 宋佳楠 当地时间6月30日,...
某OS连夜上线“苹果主题”?安... 十八年前苹果推出了第一款智能手机,从此iPhone稳坐手机行业的高端地位。可以说是流水的安卓,铁打的...
原创 在... 如果一名宇航员在太空中牺牲,他的身体漂浮在无边的宇宙中,身上穿着那套坚不可摧的宇航服。你觉得他会腐烂...
天正电气获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示天正电气(605066)新获得一项实用新型专利授权,专利名为“...
让充电宝上不了飞机的“致命电芯... 一夜之间,所有在外壳上未展示 3C 标识的充电宝,都没有办法上飞机了,这些充电宝好端端的都变成了无用...
九牧王获得实用新型专利授权:“... 证券之星消息,根据天眼查APP数据显示九牧王(601566)新获得一项实用新型专利授权,专利名为“一...
原创 杨... 1957年,诺贝尔奖颁奖典礼的现场,出现了两位与会者,他们的面孔显得格外与众不同——是亚洲人。在那些...