大模型基准测试体系研究报告(2024年)
创始人
2024-07-13 09:01:52
0

近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”。如何准确、客观、全面衡量当前大模型能力,成为产学研用各界关注的重要问题。设计合理的任务、数据集和指标,对大模型进行基准测试,是定量评价大模型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平指引未来学术研究,牵引产品研发、支撑行业应用,还可以辅助监管治理,也有利于增进社会公众对人工智能的正确认知,是促进人工智能技术产业发展的重要抓手。全球主要学术机构和头部企业都十分重视大模型基准测试,陆续发布了一系列评测数据集、框架和结果榜单,对于推动大模型技术发展产生了积极作用。然而,随着大模型能力不断增强和行业赋能逐渐深入,大模型基准测试体系还需要与时俱进,不断完善。

本研究报告首先回顾了大模型基准测试的发展现状,对已发布的主要大模型评测数据集、体系和方法进行了梳理,分析了当前基准测试存在的问题和挑战,提出了一套系统化构建大模型基准测试的框架--“方升”大模型基准测试体系,介绍了基于“方升”体系初步开展的大模型评测情况,并对未来大模型基准测试的发展趋势进行展望面向未来。

大模型基准测试发展概述

近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”,全球各大科技巨头和创新型企业纷纷围绕大模型加强布局。如图1所示,2018年,谷歌公司提出基于 Transformer实现的预训练模型BERT,在机器阅读理解水平测试 SQuAD 中刷新记录。同年,OpenAI公司发布了第一代生成式预训练模型 GPT-1,擅长文本内容生成任务。随后几年,OpenAI相继推出了GPT-2和GPT-3,在技术架构、模型能力等方面进行持续创新。2022年11月,OpenAI发布的ChatGPT在智能问答领域上的表现引起产业界轰动。除了大语言模型,2023年,OpenAI还发布了多模态大模型 GPT-4。同期国内大模型的发展也呈现不断加速态势,已经发布了华为“盘古”、百度“文心一言”、阿里“通义千问”、腾讯“混元”和智谱“清言”等200 多个通用和行业大模型产品。

随着大模型产品的不断推出,对大模型的能力进行评测逐渐成为产业界关注的重点。1950年代提出的图灵测试(TuringTesting)作为一种经典的人工智能测试方法,一直被认为是衡量机器智能水平的“试金石”。2023年7月《自然(Nature)》发表文章《ChatGPTbrokethe Turing test -the race is on for new ways to assess AI》,指出图灵测试已经无法满足大模型的评测要求,应该探索新方法来评估人工智能水平。

大模型基准测试(Benchmark)的目标是通过设计合理的测试任务和数据集来对模型的能力进行全面、量化的评估。大模型基准测试体系涵盖了大模型的测评指标、方法、数据集等多项关键要素,是指导大模型基准测试落地实践的规范。

来源:中国信通院

免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系

相关内容

热门资讯

AI芯片互联演进机会梳理 来源:市场资讯 (来源:君实财经) 我们认为Scale Up网络存在Scaling Law,Scal...
突围进行时 | 三重优势破局!... 编者按: 在自治区党委、政府高位推动下,内蒙古以“起跑就领先”的魄力,按下科技“突围”快进键,锚定稀...
湖北秭归:无人机“飞防”护航高... 8月19日,湖北省宜昌市秭归县沙镇溪镇长春村的高山梯田上空,两架无人机穿梭于翠绿稻浪间,精准向冷水稻...
vivo执行副总裁胡柏山:vi... 在“vivo会客厅”活动上,vivo执行副总裁、首席运营官、vivo中央研究院院长胡柏山表示,对于v...
国瓷材料数字技术工程师培训班开... 8月20日上午,在东营市人力资源和社会保障局指导下,由东营经济技术开发区和山东国瓷功能材料股份有限公...
原创 独... 哈喽大家好,今天来和大家聊聊我最近升级电脑的故事。 最近两年机械硬盘价格疯涨,反而固态硬盘价格猛跌,...
山西环宇高科取得钢结构生产加工... 金融界2025年8月20日消息,国家知识产权局信息显示,山西环宇高科新型建筑材料有限公司取得一项名为...
磁悬浮抛光机推动抛光工艺迈向新... 在制造业的广袤版图中,抛光工艺作为提升产品表面质量的关键环节,始终处于技术革新的前沿。从传统的手工打...
卫星时钟同步服务器 在气象监测... 在气象监测领域,时间的精准同步对于获取准确、可靠的气象数据至关重要。卫星时钟同步服务器作为一种高精度...
VR技术在国际中文教育资源建设... 随着数字技术的快速发展,虚拟现实(VR)技术为非物质文化遗产的保护与传承提供了新的机遇。在国际中文教...
缓解区域交通压力,未来科学城又... 记者8月20日从未来科学城集团获悉,位于未来科学城西区的七燕路(七辛北街-小沙河村北街)道路及管线工...
63次出手,超百亿资金,大厂们... 来源:界面新闻 文 | 壹览商业 李彦 编辑 | 木鱼 “你最近在看哪个机器人项目” 这是近...
湖北恩施:“AI医生”精准诊断... 近日,在湖北省恩施土家族苗族自治州的220千伏来凤变电站,“AI医生”的前端设备正在抓紧搜集“临床症...
“人工智能+制造”行动走深走实...   推动“人工智能+制造”行动走深走实,培育一批工业智能体,以工业智能体为抓手深化人工智能工业应用,...
小米旗下瀚星创投等入股纬钛机器... 天眼查工商信息显示,近日,纬钛机器人关联公司上海纬钛科技有限公司发生工商变更,原股东李俊彦、杭州泛钛...
盐城盐都新能源“链”就新质生产... 在盐都区远航锦锂的自动化生产车间里,一批批磷酸铁锂新型储能电芯产品正沿着生产线有序流转。这些电池不仅...
力箭一号“一箭七星”成功发射 ... 力箭一号“一箭七星”成功发射 再次承揽国际发射服务 央视网消息:8月19日15时33分,力箭一号运...
力箭一号“一箭七星”发射成功 从中科宇航技术股份有限公司(以下简称中科宇航)获悉,2025年8月19日15时33分,中科宇航力箭一...
草畜平衡智能监管终端在兴安盟上... (来源:中国环境网) 转自:中国环境网 近日,在内蒙古自治区兴安盟召开的草畜平衡智能监管终端示范现场...
“脑机接口第一城”争夺战,开启... 文 | VB动脉网 7月底,美国的Neuralink向投资者展示的一份内部文件显示:到2031年,...