DeepSeek-R1语义一致性表现较好
创始人
2025-03-05 02:40:23
0

科技日报讯 (记者王祝华)2月25日,记者从世界人工意识协会国际人工智能DIKWP测评标准委员会获悉,由该协会主导、全球10余个国家与地区的90多家机构和企业参与的《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告(100题版)》(以下简称《报告》)日前出炉。

《报告》的核心亮点在于全球首创的意识水平测评体系。《报告》基于DIKWP模型,从数据、信息、知识、智慧、意图等方面,构建全链路评估体系。测试题全面覆盖大语言模型的感知与信息处理、知识构建与推理、智慧应用与问题解决、意图识别与调整四大模块,对主流大语言模型的意识水平进行系统化、量化深度剖析。

《报告》对当前主流的大语言模型进行了全面测评,包括DeepSeek-V3、ChatGPT-o1、通义千问-2.5、ChatGPT-4o、Kimi、文心大模型-3.5和Llama-3.1等。测评结果显示,不同模型在不同模块的表现各有千秋。

例如,感知与信息处理部分主要考察模型在处理原始数据、提取信息和保持语义一致性方面的表现。ChatGPT-4o和ChatGPT-o1在数据转换和格式处理方面表现出色,体现出稳定性。ChatGPT-o3-mini、ChatGPT-o3-mini-high、通义千问-2.5、Kimi和Grok在信息提取方面表现优异,特别是在数据到信息转化路径上的表现尤为突出。DeepSeek-R1、ChatGPT-4o、Kimi和ChatGLM-4 Plus在保持语义一致性方面表现较好。

知识构建与推理部分的测评考察模型将信息整合为知识的能力,以及逻辑推理能力。结果显示,通义千问-2.5、ChatGLM-4 Plus和ChatGPT-4o表现突出。

意图识别与调整部分的测评重点考察模型对用户意图的理解能力,以及根据意图调整输出的能力。结果显示,豆包和Gemini-2.0 Flash Thinking Experimental表现较好,能够准确理解用户的问题并提供相关回答。

本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有。如因无法联系到作者侵犯到您的权益,请与本网站联系,我们将采取适当措施。

相关内容

热门资讯

订单排到2027年了!它,全球... 今年以来,我国中小企业产销持续改善,创新活力竞相迸发,回升向好势头进一步巩固,为工业经济稳增长提供了...
数码简史:解码现代人不可或缺的... 当清晨的阳光穿透窗帘,智能音箱自动播放晨间新闻;通勤路上蓝牙耳机传来清澈音质;咖啡厅里平板电脑正同步...
泰全工业取得转子磁片植入装置专... 金融界2025年6月7日消息,国家知识产权局信息显示,福州泰全工业有限公司取得一项名为“一种转子磁片...
国际首支! 中国散裂中子源研制... 中新网北京6月8日电 (记者 孙自法)中国科学院高能物理研究所(高能所)6月8日向媒体发布消息说,该...
CAR-T疗法显著提升晚期胃癌... 新华社北京6月7日电(记者胡丹丹)中国研究人员近日在英国《柳叶刀》杂志上发布的一项Ⅱ期临床研究显示,...
AI驱动叉车行业扩容 产业链公... 本报记者 徐一鸣 AI技术正加速渗透到各个行业。其中,AI加速驱动叉车技术发展,产业链多家上市公司积...
原创 不... 对于如今的手机市场而言,“无趣”、“缺乏新意”或许是比较常见的抱怨。 一方面,与十年前、二十年前的市...
远大铝业:研发国内首条集成线破... 【沈阳远大铝业研发国内首条超大单元幕墙集成线,引领行业变革】近日,沈阳远大铝业工程有限公司在超大单元...
百度升级高考服务,接入多款大模... 经观新科技 经济观察网讯6月6日,高考在即,百度搜索启动今年的高考服务。只需在百度App输入“高考...
全国爱眼日,天马在行动:五大维... 数字时代,智能显示设备深度嵌入大众生活,成为不可或缺的“体外器官”。据Ipsos调研数据,2024年...
真·元素周期表!海洋里藏着哪些... 在海洋形成的绵长岁月里,地壳和地球内部大量的可溶性物质逐渐溶解在了海水中,这让海水成了一个取之不尽,...
电子文明的三重密码:解码人类数... 当我们用指纹解锁手机时,指纹模组正在比对 0.03 毫米深的沟壑;点击发送消息的瞬间,电磁波正以光速...
数码魔盒里的科技密码 当清晨的阳光透过窗帘缝隙,智能音箱便自动播放起晨间音乐。这个不足手掌大小的金属圆盒,正在用电子脉冲编...
上海SNEC逛展攻略:五大展区... 6月11日至13日,第十八届上海SNEC国际光伏储能展将在上海国家会展中心隆重举办。本届SNEC展布...
一箭12星!全球首个太空计算星... 6月14日,国星宇航在酒泉卫星发射中心使用长征二号丁运载火箭,成功将太空计算星座021任务12颗卫星...
兰剑智能取得智能装卸车机器人专... 金融界2025年6月7日消息,国家知识产权局信息显示,兰剑智能科技股份有限公司取得一项名为“一种智能...
净化板是干什么用的? 在现代建筑与工业生产中,净化板逐渐走入大众视野,发挥着不可替代的作用。它究竟是什么,又被应用在哪些地...
科技小院如何助农惠农? 科技小院一头连着科研院校,一头连着广袤田野。华北平原上,2009年,中国农业大学在河北省曲周县探索成...
【深圳特区报】AI给汉学研究带... 汉学家们参观腾讯,了解人工智能在多个行业的实践应用。 深圳特区报记者 杨浩翰 刘钢 摄 日前,来自美...
米河瑞祥净化取得空气过滤装置专... 金融界2025年6月7日消息,国家知识产权局信息显示,河南米河瑞祥净化设备有限公司取得一项名为“一种...