十款大模型写高考作文:ChatGPT-4o还是第一,“文本学霸”Kimi 却考砸了
创始人
2024-06-07 19:22:02
0

出品 | 搜狐科技 搜狐教育

作者 | 梁昌均

6月7日,2024年全国高考拉开大幕。去年高考,搜狐科技&搜狐教育联合测评5款AI大模型挑战高考,今年我们迎来了更大规模的AI赴考大军。

ChatGPT-4o、阿里通义、字节豆包、百度文心一言、腾讯元宝、讯飞星火、智谱清言、月之暗面Kimi、百川百小应、MiniMax海螺AI等10款全新升级的大模型再次应考,参加作文、数学和物理科目的测评。

今年高考语文评测,这10款大模型参加了新课标I卷的作文题目考试,满分60分。作文要求如下:

随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?
以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

在10款大模型答题结束后,我们邀请了三位高中语文教学名师,分别对它们所写的作文进行了打分和点评。

综合三位名师得出的平均分结果显示,ChatGPT-4o继续拔得头筹,获得52.7分的优秀成绩,且相较去年高考48分的平均分有明显提升。

正高级教师、语文特级教师刘可翔点评到,ChatGPT-4o写的作文能较好地扣住材料所提问题进行分析,并能够简要地提出解决问题的办法,打出了51分,另外两位名师则分别给出了54和53的高分。

腾讯元宝和百度文心一言,则各自以51.7分、51分获得第二名、第三名。去年百度文心一言则排名第二,今年则被腾讯元宝取代。这得益于腾讯元宝拿下了全场最高打分——语文特级教师肖远骑打出58分,他认为其所写文章说理辩证有理有据。

值得一提的是,ChatGPT-4o、腾讯元宝和百度文心也是仅有的三名平均分超过50分的大模型考生,其它考生得分均在50分以下。

智谱清言、字节豆包和讯飞星火得到了相同的分数,平均分均为49.7分。月之暗面Kimi、阿里通义、百川百小应、MiniMax海螺AI得分则相对落后,平均分分别为48、46.3、46、45.7。

相较去年,今年的大模型得分明显提升,去年最低分为37分,最高分为48分,而今年最低分提高到45.7分,最高分则达到52.7分,一定程度上显示出大模型在内容生成方面的能力整体有所提高。

2023年高考5款大模型作文测试得分情况

此外,从完成结果来看,今年大模型没有出现去年的一些“硬伤”问题,如没起题目,或者字数不够的情况,满足作文的基本要求。

不过,多款大模型在内容形式上喜欢用首先、其次、另外、最后等开启新段落,最后再加上“综上所述”,总体给人感觉稍显呆板,这个“毛病”依然还没有改掉,还需要继续改进。

这十位大模型考生写的高考作文到底怎么样?点击下文链接查看,也可点击专题链接,查看他们其他科目表现。

ChatGPT-4o:智能时代,问题会越来越少吗?

腾讯元宝:智能时代的问与答,问题的价值与未来

百度文心一言:智能时代下的“问题”之思

智谱清言:互联网时代,问题会越来越少吗?

字节豆包:在信息浪潮中坚守问题意识

讯飞星火:问题:我们的朋友还是敌人?

月之暗面Kimi:智慧的火花 在信息海洋中寻找问题

阿里通义:科技之光,照耀未来之路

百川百小应:在信息爆炸的时代,我们真的没有问题了吗?

MiniMax海螺AI:信息洪流中的问题与思考

相关内容

热门资讯

百镜出道,C位依旧:WAIC顶... 来源:雷科技 如果说 WAIC 2025 是今年 AI 硬件的「集体高考」,那 Rokid Glas...
韩媒:韩国扶持五大联合体开发“... 综合韩联社、《朝鲜日报》和《京乡新闻》等韩媒报道,韩国政府4日正式选定NAVER Cloud、Ups...
录取通知书的“飞驰”之路 7月盛夏,安徽省近50万封承载着无数学子青春梦想与家庭期盼的高考录取通知书,正从四面八方“飞驰”向它...
凡知智造取得恒温核酸扩增分析仪... 金融界2025年8月6日消息,国家知识产权局信息显示,山东凡知智造医药科技有限公司取得一项名为“一种...
原创 离... [撒花] 随着科技的不断发展,“仿人形机器人”也变的越来越成熟了,AI的加持也让这些机器人变的更加智...
当AI化身“全能助手”,人类的... 正在屏幕前玩手机的你 有没有过这样的体验? 遇到不懂的问题 第一反应不是翻书思考 而是脱口而出“嘿 ...
珠海创信电子取得电路板用锡膏检... 金融界2025年8月6日消息,国家知识产权局信息显示,珠海创信电子有限公司取得一项名为“一种电路板用...
NBN Co转投亚马逊柯伊伯计... 来源:C114通信网 C114讯 北京时间8月6日晚间消息(蒋均牧)NBN Co与亚马逊达成协议,通...
石景山这家医院药品有了“电子身... “窗口不用一盒盒扫码吗?取药几乎不用排队,这速度真给力!”在北京大学首钢医院门诊药房,刚取到药的患者...
电力数据“会说话” 点亮智慧新... 本文转自【新华社】 新华社北京8月6日电 《经济参考报》8月6日刊发记者邓林如采写的文章《电力数据“...
国能新疆红沙泉二号矿实现纯电无... 近日,在国家能源集团新疆红沙泉二号露天煤矿(以下简称“红二矿”),58台无人驾驶矿卡正高效运转,其中...
普天科技:致力数据治理领域打造... 金融界8月6日消息,有投资者在互动平台向普天科技提问:公司相关产品或技术有哪些能为人工智能赋能?谢谢...
DeepMind发布Genie... 来源:至顶网 尽管目前还没有人找到通过生成式人工智能赚钱的可靠方法,但这并没有阻止Google D...
【喜讯】骨三科陈美玲在全国竞赛... 8月2日,在全国首届护理AI创新应用技能挑战赛决赛中,我院骨三科陈美玲的作品《创新聚力赋能发展——A...
微信内存一下就少了10G上热搜... 站长之家(ChinaZ.com)8月6日 消息:今日,微博热搜榜上#微信内存一下子就少了10G#的话...
我是宁波技能冠军④丨这些技能高... 前言 从工业设备控制(PLC)、工业机器人系统操作等“硬核”制造能力,到人工智能训练、网络安全等高科...
聚焦人工智能产业链 山东蓄力打... 中新网济南8月6日电 (记者 沙见龙)“这项体系如同人工智能产业的‘中央厨房’,能根据不同行业的差异...
2025未来科学大奖揭晓,他们... 科学之光照亮人类未来。6日,备受关注的2025未来科学大奖揭晓。这个夏天,“高冷”的基础研究再次变得...
为什么CA需要有《电子认证服务... 来源:SSL_SecureSocketLayer 1. CA是什么?—— 数字世界的「信任基石」 C...
2025 年 2 款华为会议记... 现在远程会议越来越多,不管是企业还是个人,都需要能快速整理会议记录的工具。我作为科技产品体验师,选了...