国产AI大模型高考成绩单出来了:讯飞星火获得综合第一
创始人
2024-06-11 15:42:31
0

随着高考的落幕,全国各地的高三学子们终于可以卸下沉重的负担,轻松迎接假期。与往年不同的是,今年的高考战场上还有一支与众不同的队伍引人注目——国产人工智能大模型。

在这场特殊的高考中,包括搜狐科技、潇湘晨报、量子位等多家权威媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的评测,并公布了成绩。我们来一起回顾一下:

首先进行的是高考作文的评测。在搜狐科技的评测中,三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。

而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品——百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以49分的平均分高居首位。

给讯飞星火打出“全场最高分”56分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”另外,从网友的热门评论中也能看出讯飞星火摘得高分的原因。

网友@2024:感觉星火好点,更像作文,有些更像回答问题。

网友@烟花绽放的节日:讯飞星火更有高考味。

接下来是数学科目的较量。在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。

在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最高认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。

最后是高考物理的测试。在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队,而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。

文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。

综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。

第一名:52.49 讯飞星火

第二名:46.08 通义千问

第三名:37.67 文心一言

第四名:34.68 Kimi

第五名:33.57 字节豆包

第六名:31.92 海螺AI

第七名:30.61 腾讯元宝

第八名:30.28 智谱清言

第九名:21.56 百川百小应

尽管评测方式可能不够严谨科学,但这次大模型高考无疑展示了国产人工智能在多个学科的优秀表现和长足进步,尤其是讯飞星火的表现堪称“文理兼修”!期待国产大模型再接再厉,在明年的高考中取得更加出色的成绩!

相关内容

热门资讯

百镜出道,C位依旧:WAIC顶... 来源:雷科技 如果说 WAIC 2025 是今年 AI 硬件的「集体高考」,那 Rokid Glas...
韩媒:韩国扶持五大联合体开发“... 综合韩联社、《朝鲜日报》和《京乡新闻》等韩媒报道,韩国政府4日正式选定NAVER Cloud、Ups...
录取通知书的“飞驰”之路 7月盛夏,安徽省近50万封承载着无数学子青春梦想与家庭期盼的高考录取通知书,正从四面八方“飞驰”向它...
凡知智造取得恒温核酸扩增分析仪... 金融界2025年8月6日消息,国家知识产权局信息显示,山东凡知智造医药科技有限公司取得一项名为“一种...
原创 离... [撒花] 随着科技的不断发展,“仿人形机器人”也变的越来越成熟了,AI的加持也让这些机器人变的更加智...
当AI化身“全能助手”,人类的... 正在屏幕前玩手机的你 有没有过这样的体验? 遇到不懂的问题 第一反应不是翻书思考 而是脱口而出“嘿 ...
珠海创信电子取得电路板用锡膏检... 金融界2025年8月6日消息,国家知识产权局信息显示,珠海创信电子有限公司取得一项名为“一种电路板用...
NBN Co转投亚马逊柯伊伯计... 来源:C114通信网 C114讯 北京时间8月6日晚间消息(蒋均牧)NBN Co与亚马逊达成协议,通...
石景山这家医院药品有了“电子身... “窗口不用一盒盒扫码吗?取药几乎不用排队,这速度真给力!”在北京大学首钢医院门诊药房,刚取到药的患者...
电力数据“会说话” 点亮智慧新... 本文转自【新华社】 新华社北京8月6日电 《经济参考报》8月6日刊发记者邓林如采写的文章《电力数据“...
国能新疆红沙泉二号矿实现纯电无... 近日,在国家能源集团新疆红沙泉二号露天煤矿(以下简称“红二矿”),58台无人驾驶矿卡正高效运转,其中...
普天科技:致力数据治理领域打造... 金融界8月6日消息,有投资者在互动平台向普天科技提问:公司相关产品或技术有哪些能为人工智能赋能?谢谢...
DeepMind发布Genie... 来源:至顶网 尽管目前还没有人找到通过生成式人工智能赚钱的可靠方法,但这并没有阻止Google D...
【喜讯】骨三科陈美玲在全国竞赛... 8月2日,在全国首届护理AI创新应用技能挑战赛决赛中,我院骨三科陈美玲的作品《创新聚力赋能发展——A...
微信内存一下就少了10G上热搜... 站长之家(ChinaZ.com)8月6日 消息:今日,微博热搜榜上#微信内存一下子就少了10G#的话...
我是宁波技能冠军④丨这些技能高... 前言 从工业设备控制(PLC)、工业机器人系统操作等“硬核”制造能力,到人工智能训练、网络安全等高科...
聚焦人工智能产业链 山东蓄力打... 中新网济南8月6日电 (记者 沙见龙)“这项体系如同人工智能产业的‘中央厨房’,能根据不同行业的差异...
2025未来科学大奖揭晓,他们... 科学之光照亮人类未来。6日,备受关注的2025未来科学大奖揭晓。这个夏天,“高冷”的基础研究再次变得...
为什么CA需要有《电子认证服务... 来源:SSL_SecureSocketLayer 1. CA是什么?—— 数字世界的「信任基石」 C...
2025 年 2 款华为会议记... 现在远程会议越来越多,不管是企业还是个人,都需要能快速整理会议记录的工具。我作为科技产品体验师,选了...