全国首个!“大模型标准符合性测试”结果公布,这四款国产大模型首批通过
创始人
2024-01-08 08:40:58
0

原标题:全国首个!“大模型标准符合性测试”结果公布,这四款国产大模型首批通过

全国首个!“大模型标准符合性测试”结果公布,这四款国产大模型首批通过

日前,全国首个官方“大模型标准符合性测试”结果公布。百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试,符合《人工智能大规模预训练模型 第2部分:评测指标与方法》语言大模型的相关技术要求,通用性、智能性等维度达到国家相关标准。截至发稿,百度、阿里云、腾讯云和360均已官宣该消息。

四家大模型率先通过测试

据悉,“大模型标准符合性评测” 由中国电子技术标准化研究院发起,旨在建立大模型标准符合性名录,引领人工智能产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见,围绕多维度展开,涵盖语言、语音、视觉等多模态领域,是基于官方大模型测试基准的权威评测。

记者查询公开资料获悉,今年8月31日,全国信息技术标准化技术委员会人工智能技术委员会秘书处就发布了启动大模型标准符合性评测的通知。通知明确,将基于大模型测试基准,开展模型的理解能力、生成能力、安全性等维度评测,为评估大模型能力水平提供全面的测试报告。

在12月22日举行的全国信息技术标准化技术委员会人工智能分委会全体会议上,“大模型标准符合性测试”结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四家大模型率先通过测试。

中国信息通信研究院有关负责人此前曾表示,大模型作为产业智能化基座,在识别、理解、决策、生成等任务中表现出泛化性、通用性、迁移性潜力,与实体经济深度绑定,在金融、工业、能源等领域进一步落地,持续释放技术红利。然而,当前大模型产品种类繁多、实际生产价值难以量化、能力判断标准尚未统一,亟需通过标准符合性验证等手段进行全面评价,推动产业高质量发展。业内人士分析,通过国家标准符合性测试,意味着相关大模型在通用性、智能性等方面达到国家标准,未来可以在更广泛的场景中应用,满足不同行业和用户的需求。

四家大模型各有千秋

记者梳理发现,首批通过“大模型标准符合性测试”的大模型,均有各自的特点与优势。

百度文心一言是中国市场第一个公开发布的基于大语言模型的生成式人工智能产品。自今年3月16日发布以来,其基础模型目前已经迭代到文心大模型4.0版本。在10月举行的百度世界大会上,百度创始人李彦宏表示,文心4.0是迄今为止最强大的文心大模型,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着明显提升,综合水平“与GPT-4相比毫不逊色”。

基于百度在搜索业务上的多年积累,文心一言在自然语言问答、文本写作、创意内容生成等方面有比较突出的表现。百度集团副总裁吴甜在近期的一场公开演讲中介绍,文心一言从数万亿数据和数千亿知识中融合学习,训练出优秀的基础模型,采用有监督精调、人类反馈强化学习、提示等技术进一步优化,具备知识增强、检索增强和对话增强的特色技术优势。

阿里云通义千问是四家大模型中唯一的开源大模型。据阿里云介绍,通义千问大模型在全球拥有广泛的开发者用户和企业客户,其性能表现及安全性得到了大范围的公开检验。12月1日开源后,通义千问72B在10个权威基准评测中创下开源模型最优成绩,并力压Meta公司的开源大模型Llama2登顶海外最具权威性的AI开源社区HuggingFace排行榜,此后又登上国内上海人工智能实验室OpenCompass榜首,成为业界公认的性能最强开源大模型。

据了解,阿里云已开源通义千问18亿、70亿、140亿、720亿参数的4款大语言模型。阿里云首席技术官周靖人曾表示,开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。

腾讯混元大模型是四家中发布时间最晚的,于今年9月7日的2023腾讯全球数字生态大会上才正式亮相。据介绍,混元大模型拥有超千亿的参数规模、超2万亿tokens的预训练语料,具备强大的中文创作能力,复杂语境下的逻辑推理能力以及可靠的任务执行能力。

值得注意的是,腾讯与其他大模型厂商相比,更强调行业应用和落地。在9月正式发布混元大模型以前,腾讯云早在6月就召开了发布会,正式公布行业大模型研发进展,并发布面向B端客户的腾讯云MaaS(Model as a Service,模型即服务)解决方案。据介绍,腾讯云MaaS的技术底座是一系列的行业大模型,包括金融、政府、文旅、传媒、教育等。基于这些基础模型,腾讯云的客户只要加入自己的场景数据,就可以生成契合自身业务需要的“专属模型”。

360智脑大模型则侧重于安全性。360表示,公司自研的360智脑大模型拥有千亿级参数规模,具备生成创作、多轮对话、逻辑推理等十大核心能力、数百项细分功能,覆盖大模型应用全场景,综合能力位列世界大模型第一梯队,并依托360在安全领域的积累和优势,成为全国首个原生安全的大模型。

据360近日最新发布,360集团与统信软件于近日达成战略合作,将发挥各自优势,构建安全可控企业级大模型。据360介绍,双方联合打造的企业大模型将重点解决大模型安全可信可控等问题,360智脑大模型现拥有国内最为完善的安全机制,能够把大模型在网络安全、数据安全、算法安全、生成内容安全的风险降到最低。

责编:史健 | 审核:李震 | 监审:万军伟

(来源:证券时报)

相关内容

热门资讯

海安宏宇取得铝合金锻压成型设备... 金融界2025年5月6日消息,国家知识产权局信息显示,海安宏宇合金材料有限公司取得一项名为“一种铝合...
机器视觉领航工业智造 杭州未来... 潮新闻客户端 通讯员 高源青 日前,一支外省考察团走进杭州未来科技城,探访杭州汇萃智能科技有限公司(...
原创 终... 有多少人跟狐妹一样?虽然手机刷视频很方便,但偶尔还是会打开电视,找回那种熟悉的大屏体验。 其实,从1...
1.4亿年前牡蛎化石解密温室地... 科学家解密牡蛎化石中的“气候密码”。通过研究1.4亿年前的牡蛎化石,来自中国科学院青藏高原研究所等单...
建银国际首次覆盖医渡科技(02... 智通财经APP获悉,近日,建银国际发布研报,首次覆盖中国AI医疗龙头企业医渡科技(02158),给予...
上海奥家取得角度可调收银机专利... 金融界2025年5月6日消息,国家知识产权局信息显示,上海奥家科技有限公司取得一项名为“一种角度可调...
五四青年节特辑 | 百年传承五... 百年前,五四青年以澎湃热血与昂扬激情,奏响了时代的强音,掀开中国青年运动的崭新一页。这份精神如同一座...
水母联调技术 从岩石孔隙“洗”... 记者4月28日从大庆油田获悉,面对开采对象变差、开发成本攀升等现实挑战,大庆油田杏南油田的技术人员自...
技术产业化瓶颈逐步攻破,BC的... 竞争激烈的光伏技术之争,又有压倒性的重大进展。 华夏能源网(公众号hxny3060)获悉,4月27日...
沧州中星取得直连型套管加厚装置... 金融界2025年5月6日消息,国家知识产权局信息显示,沧州中星石油器材有限公司取得一项名为“一种直连...
【奋战2025】提标准上科技,... 连日来,在北大荒的春耕一线,“人工校准+智能预警”的测地温方式、现场定标旱田播种与施药作业及智慧水利...
今天起,正式停止运营! 据央视新闻消息,美国微软公司旗下即时通信软件Skype正式停止运营,其核心功能将被迁移至微软主推的另...
探秘航空科技 躬读自然之美┊这... 五一假期,市青少年宫以“科创少年 逐梦航空”和“探秘森林氧吧 解码自然DNA”为主题的两场研学活动,...
七部门联合印发实施方案 医药工... 近日,工业和信息化部、商务部、国家卫生健康委等七部门联合印发《医药工业数智化转型实施方案(2025—...
手机=充电宝?10000mAh... 声音 | 小白 此前有消息称随着电池技术不断发展,预计接下来配备7000以上毫安时大电池的机型会更多...
月球独行,笑对绝境——动画版《... 在2022年的炎炎夏日,电影《独行月球》以其独特的科幻喜剧风格横空出世,由沈腾与马丽的精彩演绎,成功...
AI技术既能“上天”又能“下地... 当神舟十九号载人飞船返回舱在东风着陆场成功着陆时,中山大学航空航天学院教授张小虎非常激动。由他带领的...
超导电路新设计有望提升量子处理... 记者 张佳欣 据新一期《自然·通讯》杂志报道,美国麻省理工学院团队展示的全新超导电路设计,有望使量子...
千元预算享旗舰体验?荣耀80堪... 在科技飞速发展的当下,随着手机更新换代速度的加快,消费者换机的频率也随之提高,但频繁换机带来的经济压...
重现MIX荣光!曝小米屏下摄像... 快科技5月6日消息,博主数码闲聊站暗示,尽管小米现阶段没有推出屏下前摄的量产机型,但是相关技术一直在...