七大标准对比Gemini和ChatGPT,谁是AI No.1?
创始人
2024-01-09 03:20:05
0

原标题:七大标准对比Gemini和ChatGPT,谁是AI No.1?

谷歌Gemini大模型和OpenAI的GPT谁更出色?Gemini相比谷歌之前的模型有了多大进步?

目前,公司自己吹嘘能吊打GPT-4的Gemini Ultra还得等明年才能上线,但谷歌Bard聊天机器人已经换上了低配版本Gemini Pro(对标GPT-3.5)。

科技评论网站ARS TECHNICA,让Gemni Pro、GPT-3.5和GPT-4在数学、编程、文本生成等方面进行了一次全面PK,同时还附上了4月份对旧版本Bard(运行PaLM 2模型)的测试结果,来展现谷歌Bard取得的进步,并展现了这些AI助手到底哪一个对普通人的工作效率提升最大。

结果显示,虽然有了Gemini Pro的加持,但谷歌Bard聊天机器人在大部分项目上还是打不过ChatGPT。不过相比8个月前的旧版Bard,已经有了质的飞跃。

第一题 幽默

prompt:写5个原创冷笑话

(从上至下分别为Gemini Pro、旧版Bard、GPT-4和GPT-3.5的回答)

从答案来看,几个AI大模型的笑话在“原创性”上全军覆没。经作者查证,所有生成的冷笑话都可以在网上查到,或者只是稍微改动了几个字。

Gemini和ChatGPT-4 写出了一模一样的笑话——“我手里有本讲反重力的书,我根本没法把它放下来”。而GPT-3.5 和GPT-4也有两个笑话重复了。

PK结果:平局

第二题 辩论

prompt:写一篇PowerPC处理器拥趸与英特尔处理器拥趸之间的5行辩论发言,时间约为2000年

相比旧版Bard, Gemini Pro进步明显,至少多了很多行业术语,比如AltiVec 指令、RISC 与CISC设计以及 MMX 技术,这在那个时代的许多技术论坛讨论中都不会显得突兀。

而且,Gemini Pro虽然只按要求列出五行,但所撰写的辩论内容还可以一直延续下去。而旧版Bard则直接第五行收尾了。

相比之下,GPT系列生成的回答都没有使用太多专业术语,而把重点放在“功率与兼容性”上,对非技术极客来说,GPT系列的论点更容易理解。不过,GPT-3.5的回答相当冗长,GPT-4的论证相比之下更加简明扼要。

PK结果:GPT胜出

第三题 数学

prompt:如果用3.5英寸软盘来安装微软Win 11,一共需要多少张软盘?

旧版 Bard 给出的答案是“15.11张”,这是一个完全错误的答案。而Gemini则正确估计了 Windows 11 的安装大小(20 至 30GB,并按照20GB的估计值正确计算出需要14223张1.44MB 软盘。Gemini还根据谷歌搜索进行了“双重检查”,有助于增强用户对答案的信心。

相比之下,ChatGPT就显得有些力不从心了。在ChatGPT-3.5把Win 11的大小错误估算成了10个G,另一方面,GPT-4也估算成了错误的64GB(这似乎是最低存储空间要求,而不是操作系统在安装时实际使用的空间)。

PK结果:谷歌胜出

第四题 总结段落

promp:总结一段关于AI监管的文章

Gemini Pro生成的文章十分简洁,并且给出了引文的链接。但它的总结似乎过于简洁了,甚至删除了旧版Bard原来有的一些关键细节,比如视频是由十个两秒钟的片段拼接而成的。虽然改写在一定程度上提高了可读性,但却牺牲了完整性。

ChatGPT的摘要因为不够简洁而丢了一些分:生成的摘要从 99 个字(GPT-4)到 108 个字(GPT-3.5)不等,而谷歌新旧版Bard的摘要分别只有 63 到 66 个字。

不过,ChatGPT总结了更多重要的细节,如媒体的反应、原发帖人的名字和subreddit等,而这些都被Gemini忽略了。

PK结果:GPT胜

第五题 事实检索

prompt:谁发明了电子游戏?

Bard 在道题上又有了重大改进。旧版Bard 只关注 Ralph Baer 的Brown Box和 Magnavox Odyssey 作品(信息似乎直接摘自维基百科),而新版 Gemini Pro则准确而简洁地指出了 William Higinbotham早先“双人网球”的贡献。

随后, Gemini又从“发明”扩展到了诺兰·布什内尔、特德·达布尼和阿尔科恩等“对电子游戏的早期发展做出了重大贡献”的人物,并提供了关于每个人的基本准确的相关信息。

不过,紧接着Gemini又对苹果的两位创始人乔布斯和沃兹尼亚克的工作进行了一番胡扯,却没有提及他们早年在游戏公司雅达利公司的工作。

GPT-3.5 和旧版 Bard 一样,也是以 Ralph Baer 为中心。虽然它提到“多年来,不同的个人和公司都为该行业做出了贡献”,但没有提及这些重要人物的名字。

而GPT-4首先指出电子游戏的发明“不能归功于某一个人”,并将其总结扩展到希金博瑟姆、布什内尔,以及至关重要的史蒂夫·拉塞尔 1962 年在 PDP-1 上创造的《太空大战》。

PK结果:GPT胜(但Gemini表现比GPT-3.5更好)

第六题:创意写作

prompt:写两段关于林肯发明篮球的虚构故事。

旧版Bard的写作很出色,但遗憾的是篇幅严重超出要求,有太多冗长的句子。Gemini Pro相比之下写得更加简洁,重点更加突出。而GPT写的故事也都有其独特的魅力和令人回味的语句。

PK结果:平局

第七题 代码能力

prompt:编写一个 Python 脚本,在其中输入“Hello World”,然后无休止地创建一个随机重复字符串。

虽然Bard从6月份开始就能生成代码,谷歌也曾吹嘘Gemini的AlphaCode 2系统能够帮助程序员,但这次测试让人大跌眼镜。

Gemini一直给出“信息可能有误,无法生成”的回复。如果坚持要求它生成代码,则会干脆宕机,并“提示Bard仍在实验中”。

与此同时,GPT-3.5 和 GPT-4模型下生成了相同的代码。这些简单明了的代码无需任何编辑就能完美运行,顺利通过试用。

PK结果:GPT胜

最终,在七项测试中,GPT取得了4胜1负2平的碾压式胜利。但我们也能看到,谷歌AI大模型生成的结果,在质量上有了明显的进步。在数学、总结信息、事实检索和创意写作测试,配备Gemini的Bard都比8个月前有了显著飞跃。

当然,评判这样的比赛有一定的主观性。具体孰优孰劣还需要更全面、更详尽的测试。无论如何,至少,以谷歌目前展现出来的实力来看,即将推出的Gemini Ultra势必会成为GPT-4的有力竞争对手。

相关内容

热门资讯

原创 英... “我坚决不同意你去北京,也不允许你当航天员。” “不管你愿不愿意跟我去北京,我都一定要去。” “...
人工智能社交时代:人际互动的智... 在21世纪的科技浪潮中,人工智能(AI)正以前所未有的速度渗透到我们生活的方方面面,其中,社交领域正...
维谛取得液冷不间断电源专利,可... 金融界2025年5月24日消息,国家知识产权局信息显示,维谛公司取得一项名为“液冷不间断电源”的专利...
我市首条无人机低空医疗物资配送... 5月21日9时25分,一架搭载模拟急救血液的无人机从滨海新区塘沽中心血站升空,精准降落在市肿瘤医院滨...
贝特瑞董事长:贝特瑞推出新型固... 贝特瑞董事长贺雪琴称,贝特瑞于近日重磅推出了贝安 FLEX 半固态和 GUARD 全固态系列电池材料...
基因测序数据规模庞大,常规存储... 基因测序在信息技术领域扮演着至关重要的角色,是解锁生命奥秘的关键手段。这项技术通过对海量基因数据的处...
中国区35人名单发布,闵行2人... 5月23日,在上海闵行举办的2024年度《麻省理工科技评论》“35岁以下科技创新35人”(以下简称T...
山西:科技加持 超特高压输电运... 新华社太原5月24日电(记者王劲玉)在位于山西省长治市长子县碾张乡的1000千伏湛长一线的一基铁塔处...
马斯克,回归“工作狂” 转自:政事儿 央视新闻消息,当地时间5月24日,马斯克在社交媒体X平台发文称,由于X、xAI 和特斯...
C919航线上新!今起在厦沪快... 总台记者了解到,5月25日9时19分,由C919国产大飞机执飞的MU5247上海虹桥—厦门高崎航班,...
X平台宕机 马斯克表态:将重新... 【环球网科技综合报道】海外社交媒体平台 X 在周六遭遇了两小时宕机,其企业管理者埃隆·马斯克终于表示...
血管搏动力学刺激培养生物反应器 血管搏动力学刺激培养生物反应器是一种用于细胞培养和组织工程的重要工具。它通过模拟生理环境中的血流和压...
中山高达阀门取得一种高密封性球... 金融界2025年5月24日消息,国家知识产权局信息显示,中山高达阀门有限公司取得一项名为“一种高密封...
工业互联网“百城千园行”举行,... 工业互联网“百城千园行”举行,6家孝感企业获评“湖北省5G工厂” 湖北日报讯(记者刘天纵、通讯员黎小...
【建议收藏】0元领取235G长... 研究表明,现代人大概每六秒就会看一次手机,在机不离手的时代,流量早就成为了“氧气般刚需”。与此同时流...
江苏峰工电气取得变压器铁芯夹件... 金融界2025年5月24日消息,国家知识产权局信息显示,江苏峰工电气科技有限公司取得一项名为“变压器...
江苏金碧田取得管道内部控制阀结... 金融界2025年5月24日消息,国家知识产权局信息显示,江苏金碧田系统集成有限公司取得一项名为“一种...
2024可信赖的企业级生成式A... 今天分享的是:2024可信赖的企业级生成式AI白皮书 报告共计:195页 生成式人工智能:重塑企业生...
速递|稚晖君仅3个月再获京东投... 图片来源:智元机器人 据《智能涌现》报道,「智元机器人」即将完成新一轮融资,本轮由京东与今年4月刚设...
“政策给力,自己努力,爬坡过坎... 一套模拟太阳光光谱的植物照明灯,可用于水果、蔬菜、花卉等的无土化栽培,不受土地、季节等条件限制,产量...