DeepSeek新版R1模型实际性能如何?第三方评测来了
创始人
2025-06-06 02:20:37
0

5月29日,DeepSeek(深度求索)时隔四个月发布R1模型的升级版本。中文大模型权威测评机构SuperCLUE于6月4日发布的结果显示,新版R1模型的总体表现比旧版有所提升,超过OpenAI的o3模型,但相比于o4-mini(high)、谷歌Gemini 2.5 Pro Preview 05-06等模型仍有一定差距。

据DeepSeek介绍,更新后的DeepSeek-R1-0528模型,仍然使用2024年12月所发布的DeepSeek V3模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。当前国内所有模型中,R1模型升级版在数学、编程与通用逻辑等多个基准测评中取得领先,并且整体表现上已接近o3与 Gemini-2.5-Pro等国际顶尖模型。

DeepSeek还指出,相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在衡量数学推理能力的AIME 2025测试中,新版模型准确率由旧版的 70% 提升至 87.5%。

SuperCLUE的测评结果显示,新版R1模型在榜单上超过o3,居于第四位,总分63.55,比旧版R1提升1.61分。相比之下,o4-mini(high)在被测模型中得分最高,为70.51分;Gemini 2.5 Pro preview 05-06为66.48分,居第二。

此外,R1模型新版本的指令遵循能力显著提升,得分为48.46,比旧版R1高17.09分,但相比于国际顶尖模型o3(66.95分)和o4-mini(high)(68.07分)仍有较大差距。

测评结果还发现,新版R1模型的平均输出长度显著增加,但推理能力比旧版R1低1.7分。推理任务总分由数学推理、科学推理、代码三个任务得分的平均值决定,新版R1和旧版R1主要差距在数学和科学推理任务上,代码任务上表现更优。

此前,DeepSeek更新R1模型时提到,新版R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%-50%左右,能够有效地提供更为准确、可靠的结果。

SuperCLUE于6月5日发布的另一份测评结果显示,新版R1模型的中文幻觉率降低至13.86%,下降7.16个百分点,但与模型幻觉率指标上表现最好的豆包doubao-1.5-pro-32k模型仍有较大差距,后者的幻觉率仅为4.11%。此外,文本摘要和阅读理解任务上的幻觉率优化程度最为显著,分别降低9.27%和14.49%。

采写:南都记者 杨柳

相关内容

热门资讯

数据中心的绿色存储 看似整个世界都在依赖 AI 来提升未来效率,但从 可持续发展的角度来看,这对地球究竟意味着什么? ...
未来的语文怎么教怎么学?从高考... 中国青年报客户端北京6月7日电1335万考生报名参加2025年全国高考。今天上午,全国高考正式拉开帷...
科粤机械取得空心轴加工用悬吊机... 金融界2025年6月7日消息,国家知识产权局信息显示,佛山市南海科粤机械有限公司取得一项名为“一种空...
为矿工生命安全筑起智能防护墙 在西山煤电,AI预警平台为矿工生命安全筑起一道智能防护墙。本报记者 王佳丽 摄 ...
我国中小企业生产经营回升向好 央视网消息(新闻联播):今年以来,我国中小企业产销持续改善,创新活力竞相迸发,回升向好势头进一步巩固...
腾瑞电力取得便携式用电采集装置... 金融界2025年6月7日消息,国家知识产权局信息显示,腾瑞电力科技有限公司取得一项名为“一种便携式用...
优化企业安全的等保测评收费标准... 在数字化转型背景下,信息安全等级保护测评成为企业合规的重要基础。本文探讨了优化企业安全的等保测评收费...
公牛集团获得发明专利授权:“适... 证券之星消息,根据天眼查APP数据显示公牛集团(603195)新获得一项发明专利授权,专利名为“适配...
元平台申请免插入处方矫正光学模... 金融界2025年6月7日消息,国家知识产权局信息显示,元平台技术有限公司申请一项名为“免插入处方矫正...
“黑科技”建材有多神奇?来看看... 记者从中国建筑材料联合会获悉,我国建材行业首次实现重点领域碳排放核算全覆盖。在对我国建材行业的调研过...
带学生斩获160多个大奖!这名... 在AI和机器人火热的当下 谁能想到 早在2005年 海宁就诞生了 第一批学校机器人社团 此后更是拿奖...
(经济观察)广东加速打造人工智... 广州6月7日电 (记者 孙秋霞)近年来,广东密集出台一系列支持人工智能与机器人产业创新发展的政策措施...
原创 人... 人形设计的核心必要性,环境适配性:人类社会的物理环境(如门把手、楼梯、工具)均以人体工程学为基础设计...
柬埔寨官员呼吁中国企业助力柬农... 金边6月7日电 (记者 杨强)由中柬两国企业合作建设的柬埔寨首个香蕉供应链气体负压催熟库当地时间6日...
格力电器获得发明专利授权:“换... 证券之星消息,根据天眼查APP数据显示格力电器(000651)新获得一项发明专利授权,专利名为“换热...
武陟:梯度培育赋能企业“拔节生... 河南日报客户端记者 成安林 通讯员 成睿 6月6日,位于武陟经济技术开发区的焦作赛科中药生物科技有限...
准备干掉360整个市场部?周鸿... 每经AI快讯,6月6日晚间,360集团创始人、董事长周鸿祎在其个人微博账号发文称,“我准备干掉360...
“超越日本,中国首次跃居首位” 据《日本经济新闻》网站6月4日报道,中国在氢相关专利竞争力方面超越日本,首次跃居首位。中国企业主要在...
2025 年性价比超强的 6 ... 2025 年性价比超强的 6 款 512G 大内存手机:从地铁通勤到高原徒步,哪台是你的「搬砖神器」...
字节跳动CQC前掌门李彤离职,... 近日,字节跳动内部传出一则重要人事变动消息,其内容质量中心(Content Quality Cent...