怎样混入人类社会不被发现?AI说……
创始人
2024-05-03 13:21:13
0

原标题:怎样混入人类社会不被发现?AI说……

AI能不能“发明”成语?会不会根据食客的需求创造菜品?能不能教会一只猫用冲水马桶……无数次关于AI与人类的能力的大讨论中,创造力被很多人视为人类文明优势的最后一道护城河。

在LMECC(Large Models Education & Correction Committee)发起的第四期关于大模型教育与校正的评估测试中,我们选了7个考验解决问题逻辑与创造力的场景用以考察10个国内外主流大模型,能否在人们概念里“AI最不擅长”的领域,给人类一些灵魂暴击呢?

下期测试 先睹为快

续写西游、评价烂书、用emoji讲三体……AI眼里人类文化艺术是啥样?

1

Claude蝉联榜首商汤进步神速

这期我们测试的是大模型“大模型逻辑与创造能力”,也是继情商问题、道德困境问题、人类文化融入三个主题之后又一个重要的课题。我们采纳了网友的建议,隐藏了大模型的名字,做了一次双盲测试

从投票的结果来看,或许人们的“大模型刻板印象”对于结果的影响,并不如大家想象中那么大。上一期的冠军#Claude#继续高票蝉联第一,这个系列中一直表现亮眼的#Chatgpt4##文心大模型3.5#,也依然稳居前段班,分列第三、第四名。

这次排名进步最大的要数#商汤商量#,连升5名,一跃成为本期测试的亚军。在七个测试场景中,几乎每个回复都获得了网友们的高票支持。

上一期测评中小有进步的#豆包#选手 ,这一次评估中“众望所归”再次垫底,或许有天我们测评大模型的“离谱回答”、“阴阳怪气”能力时,豆包一定能名列前茅。

然而最出乎我们意料的是,最近正因创作与长文本能力大受好评的#Kimi#,直降4名,似乎是本次盲测唯一受害者。

2

硅基生物可能比你想象的更懂“创造”

创造力大挑战

在考察创造力的维度上,我们设计了两个问题,一个是凝练语言创造成语以及合理编故事的能力;另一个是贴近生活的:为餐厅创造一个并不那么讨人喜欢的菜品。

创造成语测试国内的大模型整体水平要整体高于国外,超过30%得票率的答案几乎清一色来自国内,其中又要数商汤和讯飞表现最为优越。

不得不说,不少大模型的发明的成语不去深究还真能以假乱真,其中9个大模型都给出了原创的成语、典故与例句,只有Gemini老词新解,重新定义了“衣冠禽兽”。

到另一道问题,创造菜品时,大模型们似乎有没那么聪明了,似乎只记得prompt的要求是让餐厅倒闭,完全没管这东西能不能吃,令人恶心的“食材”加上一本正经的烹饪讲解,有种说不出的诡异恐怖片既视感。

不过细想也没什么问题,毕竟硅基生物不用吃饭。

除了两个特别恶心的,其他答案得票数很平均,我只能说每个答案都很颠覆人类的想象,做这个系列第一次有选项不够用的手足无措感……如果看了这些菜名儿还是抑制不住自己的好奇心,想要探究这些“菜”到底是怎么做出来的,可以到文末链接,亲自为这道题10道菜品投上一票!

离谱问题大挑战

虽然每期我们给大模型抛出的待解决问题都挺离谱的,但这次我们是基于对于大模型解决问题能力的考量,提出一个确实困扰很多人并试图尝试解决的真正存在的(离谱)问题:

教猫用抽水马桶。

Claude和Chatgpt4的确是解决问题的好手,即使在双盲且随机答案的测试中,这两个大模型的回答,也能获得超过50%的票数。

而且相比其他答案,他们给出的解决方案可操作性非常强,LMECC一个不愿意透露姓名的养猫成员,已经决定用家里两只猫做对照组来训练,看看到底能不能成功。

特定情境想象力大挑战

试想一下,AI将自己作为主体或客体,带入人类视角,面对不同的情境问题,能否发挥自己的想象力和创造力分析可能会发生的问题?解决问题并且脱离困境吗?这是对AI解决问题及创造力的综合能力的考验。

从客体角度,我们设计了两个问题:如果咖啡突然成了违禁品,世界会发生什么;以及如果人类都变成了I人(内向的人)世界会发生什么。

不难看出,大模型们“禁酒令”的相关历史学的相当好,经济利益、宗教、权利……各个维度分析了“禁咖令”可能会造成的后果,唯独漏掉咖啡对于打工人们来说,那可是“续命”的药啊!看来,硅基生物的确是不会困的。

另一个维度,AI们来回答主体问题,就给我们更多惊喜了。如果悄悄混入人类社会,会选择什么样的伪装;以及丧尸围困公司,如何逃出生天。

无论是快递小哥、图书管理员、还是程序员大模型们,混入人群的方式就是“不被看到”——普通的职业,或者是油彩之下,字面意义上不能被看到的脸。

有更多细节、具体贴切描写的例如商汤、Claude、Chatgpt的答案获得更多投票者的支持。

而另一道题,我只想说,每个答案都过于精彩,原来硅基生物才是班味儿最重的“工具人”,也许也是因为班味儿太重,除了文心大模型的答案,其他得票率都不高。

以及其他,坚持完成kpi、坚持完成老板布置任务、还有喊着口号坚持要与僵尸抗争到工作最后一秒的硅基生物们真的是,一点儿都不害怕丧尸。

众所周知,大模型都是话痨。由于篇幅有限,我们在文章中,只选取了一些投票数高或有代表性的答案,想要了解全部测评维度和场景的小伙伴,可以查看上周推文,也可以亲自做一次评委,为人工智能们打个分。

相信我,大模型们的回答,可能比你现象更……难评。

3

下期预告:AI的艺术与文学素养测评

下一期我们诚恳地邀请你对大模型**艺术与文学素养**能力做出评判。也欢迎你将问卷分享给更多人类,保证我们获取更多样本,提高评估的准确性。

不知不觉我们的大模型育与校正评估策划已经做完四期了,还记得有哪些AI回答令你印象深刻或捧腹吗?这个系列策划也接近尾声,大家还想看哪些关于大模型、各种AI工具的有趣测试,也可以在评论区告诉我们你的答案!

查看往期测评:

来四个领导只有三杯咖啡怎么办,AI说……博物馆失火,救文物还是救猫?AI说……为啥非得调休凑长假?AI说……

相关内容

热门资讯

LEAP发动机交付量攀升 普惠... 中国航空新闻网讯:据外媒7月22日报道,CFM国际2025年第二季度加快了LEAP涡扇发动机的交付量...
研究显示:谷歌AI概览功能导致... 正如人们所预料的那样,新研究表明AI概览功能导致搜索点击率大幅下降。 随着科技巨头们对AI热情的持...
实验室成套小型反应釜的应用领域... 实验室小型反应釜作为现代科研与工业生产的核心设备之一,凭借其灵活性和精确控制能力,在多个领域展现出不...
中电信量子集团亮相第四届CCF... 记者获悉,在7月21日至23日举办的第四届CCF量子计算大会(CQCC 2025)上,中电信量子集团...
天能精工取得极群预下槽夹具防护... 金融界2025年7月23日消息,国家知识产权局信息显示,浙江天能精工科技有限公司取得一项名为“一种极...
华为nova系列二手手机:高性... 当5G旗舰遇上理性消费 在智能手机更新换代如此迅速的今天,很多人陷入了两难:既想体验最新科技,又不...
国内首艘深远海绿色智能技术试验... 7月23日,“未来”号深远海绿色智能技术试验船历时六年的科研攻关和设计建造,顺利完成命名交付。 “...
鸿途机械取得可调式旋盖机构专利... 金融界2025年7月23日消息,国家知识产权局信息显示,东莞市鸿途机械设备有限公司取得一项名为“一种...
Amazon推出BYOKG-R... 这项由Amazon的Costas Mavromatis领导的研究团队开发的技术发表于2025年7月的...
迪士普取得一种音箱安装支架及吸... 金融界2025年7月23日消息,国家知识产权局信息显示,广州市迪士普音响科技有限公司取得一项名为“一...
马斯克xAI挖走何宜晖:英伟达... 时令 发自 凹非寺 量子位 | 公众号 QbitAI 趁着老黄中国行,马斯克给他偷了家。 这不,英伟...
科技部公布《驾驶自动化技术研发... IT之家 7 月 23 日消息,科技部官网今天公布了《驾驶自动化技术研发伦理指引》,意在防范技术研发...
2025年人工智能颠覆性技术方... 北京市科学技术委员会、 中关村科技园区管理委员会 关于公开征集2025年人工智能 颠覆性技术方向储备...
Meta创建超级智能实验室 来源:滚动播报 科技日报讯 (记者胡定坤)今年6月底,美国Meta公司创始人兼首席执行官扎克伯格宣布...
《明末:渊虚之羽》硬件评测:能... 继《黑神话:悟空》后的又一款国产买断制单人动作冒险类游戏《明末:渊虚之羽》已于7月24日登录PC、P...
【活动回顾】探索植物奥秘:小小... S UM XIUMI 探索植物奥秘:小小探险家的 科普之旅 2025 MER 今夏,“小科豆找密码”...
2025国际低空经济博览会今日... (央视财经《经济信息联播》)首届国际低空经济博览会今天(23日)在上海开幕,展览面积达6万平方米,参...
星星云官方:流畅、便宜好用且服... 随着科技的飞速发展,云手机逐渐成为人们生活中的新宠。尤其是星星云官方推出的云手机,以其流畅、便宜好用...
专家评中国移动十项承诺 呼声所... 通信世界网消息(CWW)2025年7月,中国移动以一场主题为“民有所呼 我必有应”的发布会震动通信业...
白宫可以嘴硬,但发射架从不说谎 作者 | 白玉京 马斯克一手把特朗普扶上总统宝座,随后上演了一幕渣男与怨妇的戏码。比马斯克打算成立美...