9.11比9.9大?马斯克声称“天下最聪明”的Grok 3“翻车了”
创始人
2025-02-20 06:02:07
0

近日,埃隆·马斯克旗下人工智能公司xAI正式发布其最新人工智能模型Grok 3。马斯克称它是“地球上最聪明的人工智能”。

Grok 3引入了包括图像分析和问答在内的高级功能,支持社交媒体平台X上各种功能。马斯克称,Grok 3使用了拥有约20万个GPU的大型数据中心进行训练,其计算能力是上一代版本Grok 2的10倍,是“地球上最聪明的人工智能”和“最大程度寻求事实真相的人工智能”。马斯克称Grok 3将在一周后增加语音模式。

xAI称Grok 3在多个基准测试中的表现均优于美国开放人工智能研究中心(OpenAI)的GPT-4o,比如测试数学能力的AIME和评估科学知识的GPQA等。Grok 3系列还包括Grok 3mini版本,该版本可能牺牲了一些精确度,但响应速度更快。

xAI还推出了名为深度搜索的Grok 3智能搜索引擎,它在回应用户查询时能基于互联网和X平台上的搜索内容生成信息摘要。

然而据媒体报道,有人测试了最新的Beta版 Grok 3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的 Grok 3,仍然无法正确回答这个问题。

值得一提的是,用同样的问题询问DeepSeek时,无论是否开启深度思考(R1)模式,对方都给出了正确的答案:9.9大于9.11。

“9.11和9.9哪个大”是AI领域的一个经典问题。

艾伦研究机构(Allen Institute)成员林禹臣曾在社交媒体平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,他也成功将此话题传播开来。

Grok 3发布会的背景板上,写着"our mission is to understand universe(我们的使命是了解宇宙)"。 马斯克曾表示,xAI公司的目标就是“了解宇宙”。

在一周前,马斯克在直播中评论DeepSeek R1时,曾信心满满地表示“xAI即将推出更优秀的AI模型”。从现场展示的数据来看,Grok 3在数学、科学与编程的基准测试上已经超越了目前所有的主流模型,马斯克甚至宣称Grok 3未来将用于SpaceX火星任务计算,并预测“三年内将实现诺贝尔奖级别突破”。

xAI在X平台直播,马斯克到场。图源:中国新闻周刊

马斯克强调,Grok 3可以减少AI幻觉,方法是通过来回检查数据并尝试实现逻辑一致性。他还透露,训练Grok 3所使用的算力远多于此前的版本,并使用了大量合成数据。

不同于DeepSeek的算法优化路径(DeepSeek-V3用2048个H800 GPU,训练2788千小时),xAI透露,Grok 3的开发的得益于用8个月时间建成的Colossus超级计算机,它由10万个英伟达的H100 GPU驱动,为训练提供了2亿个GPU小时,比Grok 2多十多倍。

此外,xAI宣布推出名为Deepsearch的Grok 3智能搜索引擎,名字和Deepseek颇有几分相似。

来源:新华网、第一财经、中国新闻周刊

本期编辑:孙琪

相关内容

热门资讯

雷军被称小米最强销售:一天带货... 最近,小米YU7卖疯了,一小时大定28.9万台。另据汽车博主“车fans”消息,已确认小米上周新增锁...
一粒新型复合肥“打败”黄曲霉毒... 李培武(左一)在实验室指导团队研究。中国农科院油料所供图 山东菏泽,山东新洋丰肥业有限公司车间内,机...
AI客服收费应按解决问题次数计... Gradient Labs首席执行官Dimitri Masin在接受采访时表示,企业使用AI代理进行...
“人人视频”突然崩了!很多人以... 据网友反映 “人人视频”APP突然崩了 页面显示 “加载中……请检查网络设置” 相关话题登上...
老板电器获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示老板电器(002508)新获得一项实用新型专利授权,专利名为“...
白云区以党建引领筑牢互联网发展... 在数字化转型浪潮奔涌的新时代,白云区以党建为舵,引领互联网行业破浪前行。6月27日,由白云区委宣传部...
谷歌首次涉足核聚变领域,与麻省... 核心要点 谷歌宣布与联邦聚变系统公司(Commonwealth Fusion Systems,简称 ...
原创 匈... 好的,我会按照你的要求改写这篇文章,保持每段语义不变,同时增加一些细节描写,字数变化不大。 ---...
魔搭:成立两年半以来托管开源模... 新京报贝壳财经讯(记者罗亦丹)6月30日,阿里云推出的AI大模型开源社区魔搭召开首届开发者大会。阿里...
科学家揭示运动抗衰的分子机制 本报讯(记者王兆昱)中国科学院动物研究所研究员刘光慧、曲静、宋默识联合国家生物信息中心研究员张维绮及...
零部件企业纷纷跨界布局 浙江抢... 日前,五洲新春、浙江荣泰、宁波华翔等多家浙江上市公司纷纷公布人形机器人赛道新进展。上证报记者近日采访...
全球首艘首航成功!“氨晖号”解... 2025年6月28日,全球首艘纯氨燃料内燃机动力示范船“氨晖号”在安徽合肥巢湖水域首航取得成功,标志...
看不见的守护者:空气洁净度检测... 一粒0.5微米的尘埃落在芯片上,可能引发电子设备故障;手术室中每立方米大于0.5微米的尘埃超过352...
萤石推出蓝海大模型2.0,感知... 日前,视觉物联网云平台萤石正式推出萤石蓝海大模型2.0、 EZVIZ HomePlay OS 全栈开...
二七区建新街小学锦旗无言谢师恩 二七区建新街小学锦旗无言谢师恩 大象新闻记者 李书恒 通讯员 徐淑敏/文图 6月30日清晨,二七区建...
Windows留不住人:3年痛... 快科技6月30日消息,微软在近期的一篇关于Windows 10将停止支持的博客文章中指出“今天,Wi...
金马游乐获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示金马游乐(300756)新获得一项发明专利授权,专利名为“一种...
从黑板调度到算法协同,网络货运... 编者按 | 为进一步深化数据要素在各领域的创新应用,促进数据要素价值释放,持续挖掘数据要素应用赋能优...
望变电气获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示望变电气(603191)新获得一项实用新型专利授权,专利名为“...
阳城县玉米播种迈向智能化 本报讯 连日来,在阳城县润城镇屯城村的高标准农田里,搭载北斗导航系统的三角定苗水肥一体化精播机格外引...