神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观
创始人
2024-04-30 15:28:15
0

原标题:神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观

机器之心报道

编辑:杜伟、陈萍

这场等待「GPT-5」的游戏啥时候才能结束?

GPT-5 啥时候来?估计是 AI 领域最关心的问题之一了。是像 Sora 一样毫无预兆的发布,还是我们可以从边角料的爆料中得知一点点信息,大家对未来将要发布的这一模型充满了期待。

但奥特曼在一次访谈中表示,OpenAI 现在采用迭代部署的方式进行研发,而不是秘密进行直到完成 GPT-5 才公布,他们的目标不是给世界带来震惊性的更新,恰恰相反,OpenAI 希望自己研发的成果不会给人一种跳跃式的发展趋势,如果大家有那种感觉的话,OpenAI 会更加快速迭代地发布他们的产品,比如在发布 GPT-5 之前,先上线 GPT-4.5。

无论如何,大家对 GPT-5 的好奇心已经拉满。传言中 OpenAI 今天会有一些大的发布,我们也没有等来。

不过,LMSYS Chatbot Arena 上出现了一个神秘的模型,在社交媒体上引起了广泛的热议。

这个神秘的模型名为「gpt2-chatbot」,当有人问是谁创建了它?该模型自己的回复时竟然是 OpenAI,并且是基于 GPT-4 架构。

图源:X@TomDavenport

这个模型吸引了大量网友的围观和测试,结果很多人发现,gpt2-chatbot 的能力似乎与 GPT-4 保持在同一水准,甚至在一些任务上的表现比 GPT-4 Turbo 还要好。

因此,网友们纷纷猜测,gpt2-chatbot 是 GPT-4 的某个新版本,比如 GPT-4.5,或者 GPT-5 的测试版。

图源:X@elder_plinius

还有人扯到了消失了很久的 OpenAI 首席科学家 Ilya Sutskever,说 gpt2-chatbot 实际上是 Ilya 在答题。

图源:X@roramora0

不过今早,奥特曼神叨叨地回复了一句,表示对 gpt2 情有独钟。GPT-2 于 2019 年推出,参数量为 15 亿。

奥特曼的编辑记录更加激起了网友的好奇,先是 gpt-2 后是 gpt2,难道 gpt2(二代)要来了吗?

图源:X@andromeda74356

不管 gpt2-chatbot 最终是什么,我们先来看看它在哪些任务上表现更强。

神秘的 gpt2-chatbot 强在哪里?

先来看 gpt2-chatbot 与 gpt-4-trubo 分别画独角兽(TikZ 独角兽)的效果对比,显然前者的效果更好一点。

图源:X@JoshhuaSays

另一个类似的画独角兽示例,gpt2-chatbot 与 Claude Opus 的效果比较。

下图从左往右依次是 GPT-4 Turbo、Llama 3 和 Gemini 1.5 pro 的生成效果。

图源:X@SullyOmarr

再来看数学方面的一些例子,其中 gpt2-chatbot 可以一次性地解答国际数学奥林匹克(IMO)问题。

图源:X@itsandrewgao

不仅如此,有人发现了 gpt2-chatbot 比其他所有模型表现都要好的任务:「A+B-1」问题

图源:X@DimitrisPapail

对于一些逻辑推理题,gpt2-chatbot 也更擅长,并强于其他大模型。

比如,当问 gpt2-chatbot「我今天有 3 个苹果,昨天吃了一个。现在有几个苹果?」它给出的回复很准确(3 个),并解释了原因(昨天吃了一个并不影响现在有几个苹果)。很少能有模型回答对这个典型的推理题。

作为对比,GPT-4、Claude-3 Opus、Gemini Ultra、Llama 3-70b 都回答错了。

图源:X@airesearch12

再比如,「Jessica 有两个兄弟和一个姐妹。她的兄弟各有多少个姐妹?」显然 gpt2-chatbot 回答对了。

而 Claude-3 Opus 搞错了。

图源:X@skirano

此外,gpt2-chatbot 在一些哲学问题上也答得很好,在完整性和基本事实方面,与 GPT-4 Turbo 相比,具有非常相似的解答思路。

图源:X@anonkanav

图灵奖得主 Yann LeCun 也赶来围观,不过他并不看好这个模型,并表示人工智能的炒作已经变成了讽刺。

LeCun 之所以这样说,是因为有人问 gpt2-chatbot「一个农夫带着一只羊和一只山羊站在河的左岸,旁边有一条船。船只能装下一个人和两个动物。农夫如何带着羊和山羊到达河的右岸,并尽可能减少旅行次数?」

对于这个问题,正常来说只需一趟就可以了,但 gpt2-chatbot 把答案弄得非常复杂,还分了 5 步完成。

图源:https://twitter.com/ylecun/status/1785100806695325804

可以说,这些测试结果让我们看到了 gpt2-chatbot 在画图、数学、逻辑推理等任务上的不俗能力,同时也会出现将简单问题复杂化的情况。但要说它就是 GPT-4 或 GPT-5,有人还是不同意。

因此,有人猜测 gpt2-chatbot 实际上还是此前的 GPT-2,但是使用现代助理数据集进行了微调。在这种情况下,这意味着 OpenAI 最初的预训练效果仍然令人惊叹,并在几年后仍比其他模型更好。

图源:X@albfresco

如何体验?

首先你需要进入 chat.lmsys.org:

在如下的界面中,点击 Direct Chat:

然后选择 gpt2-chatbot 就可以测试了:

不过,当我们向 gpt2-chatbot 提问时,收到提示「此模型速率已达到上限」,看来大家只能再等等了。

地址:https://chat.lmsys.org/?&continueFlag=7c6341bdf97e0feac7657a2181eabc99

除了 gpt2-chatbot,OpenAI 今天还发布了一个消息,他们在 2 月份宣布的 Memory 功能,现在可供所有 ChatGPT Plus 付费用户使用。

相关内容

热门资讯

市人工智能大模型中心 牵手超1... 今年3月,全国首个面向制造领域的城市级大模型中心——东莞市人工智能大模型中心开服(下称“大模型中心”...
本钢板材获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示本钢板材(000761)新获得一项实用新型专利授权,专利名为“...
特斯拉与三星签署165亿美元芯... 7月28日,三星电子公布与一家大型跨国公司达成价值165亿美元的芯片供应协议,特斯拉CEO马斯克随后...
原创 中... 今天分享的是W29(7.14-7.20)国内手机市场份额,本周大盘变化不大,所以更适合拿来进行横向对...
共建自主可控 跨境算力安全新生... 【深圳商报讯】(记者 陈燕青)7月27日,游族网络、长城科技、深圳机密计算签署战略合作协议,三方将深...
历时10个月!微软终于移除Wi... 快科技7月28日消息,自2024年10月发布以来,Windows 11 24H2版本一直受到不少已知...
乐鑫科技获得发明专利授权:“无... 证券之星消息,根据天眼查APP数据显示乐鑫科技(688018)新获得一项发明专利授权,专利名为“无参...
福立旺获得实用新型专利授权:“... 证券之星消息,根据天眼查APP数据显示福立旺(688678)新获得一项实用新型专利授权,专利名为“一...
西门子:以工业AI引爆新一轮生... 日前,2025世界人工智能大会(WAIC)主论坛在上海举行,西门子全球执行副总裁、西门子中国董事长、...
ST证通获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示ST证通(002197)新获得一项实用新型专利授权,专利名为“...
芯恩取得晶圆传输装置专利,可及... 金融界2025年7月28日消息,国家知识产权局信息显示,芯恩(青岛)集成电路有限公司取得一项名为“晶...
原创 科... 7月24日下午,国务院总理李强在北京人民大会堂同欧盟委员会主席冯德莱恩共同出席中欧企业家座谈会。 当...
三星Galaxy Z Fold... 在三星手机产品线中,Galaxy Z Fold系列无疑是最顶端的,而这次,Galaxy Z Fold...
无人机、两栖车,北京暴雨中他们... 无人机空投物资、两栖车跋山涉水、卫星电话连通受灾区…… 北京暴雨中,无数救灾人员奋战在灾情一线,他们...
中船应急获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示中船应急(300527)新获得一项发明专利授权,专利名为“一种...
工业和信息化部:新一轮十大重点... 新华社北京7月28日电(记者周圆)今年下半年,工业和信息化领域将落实扩大内需战略,全力巩固工业经济基...
宁波安贝智能控制技术取得线路板... 金融界2025年7月28日消息,国家知识产权局信息显示,宁波安贝智能控制技术有限公司取得一项名为“一...
2025第七届人工智能产品应用... 7月28日,2025第七届人工智能产品应用博览会(以下简称“智博会”)在苏州国际博览中心开幕。活动现...
学生“非遗+AI”优秀作品亮相... 中新网上海7月28日电(记者 陈静)在人工智能浪潮席卷全球的今天,如何让传统文化在数字时代焕发新生?...
宏正电脑取得侧开结构计算机机箱... 金融界2025年7月28日消息,国家知识产权局信息显示,广州宏正电脑科技有限公司取得一项名为“一种侧...