DeepSeek新版R1模型实际性能如何?第三方评测来了
创始人
2025-06-06 02:20:37
0

5月29日,DeepSeek(深度求索)时隔四个月发布R1模型的升级版本。中文大模型权威测评机构SuperCLUE于6月4日发布的结果显示,新版R1模型的总体表现比旧版有所提升,超过OpenAI的o3模型,但相比于o4-mini(high)、谷歌Gemini 2.5 Pro Preview 05-06等模型仍有一定差距。

据DeepSeek介绍,更新后的DeepSeek-R1-0528模型,仍然使用2024年12月所发布的DeepSeek V3模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。当前国内所有模型中,R1模型升级版在数学、编程与通用逻辑等多个基准测评中取得领先,并且整体表现上已接近o3与 Gemini-2.5-Pro等国际顶尖模型。

DeepSeek还指出,相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在衡量数学推理能力的AIME 2025测试中,新版模型准确率由旧版的 70% 提升至 87.5%。

SuperCLUE的测评结果显示,新版R1模型在榜单上超过o3,居于第四位,总分63.55,比旧版R1提升1.61分。相比之下,o4-mini(high)在被测模型中得分最高,为70.51分;Gemini 2.5 Pro preview 05-06为66.48分,居第二。

此外,R1模型新版本的指令遵循能力显著提升,得分为48.46,比旧版R1高17.09分,但相比于国际顶尖模型o3(66.95分)和o4-mini(high)(68.07分)仍有较大差距。

测评结果还发现,新版R1模型的平均输出长度显著增加,但推理能力比旧版R1低1.7分。推理任务总分由数学推理、科学推理、代码三个任务得分的平均值决定,新版R1和旧版R1主要差距在数学和科学推理任务上,代码任务上表现更优。

此前,DeepSeek更新R1模型时提到,新版R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%-50%左右,能够有效地提供更为准确、可靠的结果。

SuperCLUE于6月5日发布的另一份测评结果显示,新版R1模型的中文幻觉率降低至13.86%,下降7.16个百分点,但与模型幻觉率指标上表现最好的豆包doubao-1.5-pro-32k模型仍有较大差距,后者的幻觉率仅为4.11%。此外,文本摘要和阅读理解任务上的幻觉率优化程度最为显著,分别降低9.27%和14.49%。

采写:南都记者 杨柳

相关内容

热门资讯

捷讯精密橡胶取得柔性线路板电测... 金融界2025年8月26日消息,国家知识产权局信息显示,捷讯精密橡胶(苏州)有限公司取得一项名为“一...
余晓晖:推动“人工智能+”行动... (来源:经济日报) 转自:经济日报 当前,人工智能在技术创新与商业应用的双轮驱动下,加速与实体经济深...
神秘的宇宙“黑死病”:能够在行... 它们能够逐渐变大,吞掉整个行星,并将其转化为同等质量的黑洞。 新研究认为,暗物质可能会在如木星般大...
我国卫星互联网牌照发放倒计时,... 我国低轨卫星组网提速 作者 | 钱立富 7月下旬以来,我国卫星互联网建设明显提速。 从7月27日至8...
e法耀陇原丨甘肃酒泉:智慧警务... 高效有力的信息化平台是反诈工作的基础。酒泉公安强化“智慧宣传+精准打击”双轮驱动,构建起一道坚实的反...
国家能源局:新能源也有“成长的... 转自:北京日报客户端 8月26日上午,国新办举行“高质量完成‘十四五’规划”系列主题新闻发布会,介绍...
佛山:重塑制造业 真金白银催动... 深圳商报·读创客户端驻穗记者 张莹 8月26日,广东省人工智能与机器人产业创新产品与服务发布会(佛山...
温州建力电器申请绝缘型电力设备... 金融界2025年8月26日消息,国家知识产权局信息显示,温州建力电器有限公司申请一项名为“一种绝缘型...
从番茄到红果,张超和他的“狼群... 几周前,小红书上某位“大厂”博主发布的笔记突然火了,这篇笔记的封面写道:“张超太能打了,西瓜没做到的...
全国51支参赛队伍广州比拼医疗... 中新网广州8月26日电 (记者 王坚)来自全国各地的51支参赛队伍、近200名技能精英26日齐聚广州...
科技赋能,智慧监管!福保街道“... 深圳商报·读创客户端记者 徐丽 通讯员 何巧兰 郑涵 为彻底破解电动自行车管理难题,福田区福保街道创...
使用Llama.cpp在家中私... 虽然训练大语言模型可能需要数百万甚至数十亿美元的基础设施,但这些劳动成果往往比你想象的更容易获得。许...
老板电器取得燃气灶装置专利,冷... 金融界2025年8月26日消息,国家知识产权局信息显示,杭州老板电器股份有限公司取得一项名为“燃气灶...
贵阳大数据交易所携多项重磅成果... 8月26日,2025年中国国际大数据产业博览会媒体吹风会举行,记者从发布会上获悉,作为已连续十年参加...
【热点观察】数见未来,AI驱动... 今年初,DeepSeek横空出世,标志着AI大模型在技术领域的重大突破,为企业运营管控带来了全新的机...
湖北省纤维检验局:“科技+科普... 近日,在湖北省市场监管局主办的“矢志创新发展 建设科技强国”科技实验微短剧大赛中,湖北省纤维检验局及...
世界互联网大会文化遗产数字化论... 来源:市场资讯 (来源:澎湃新闻) 由世界互联网大会主办,陕西省人民政府承办的2025年世界互联网大...
呼和浩特生物疫苗产业强势崛起 华希生物疫苗生产车间 8月24日从呼和浩特市科技局获悉,内蒙古华希生物科技有限公司(以下简称“华希生...
电脑文件删除了怎么恢复?介绍常... 电脑文件删除了怎么恢复?当电脑文件不慎被删除后,许多人会感到焦虑和无助。实际上是有办法可以恢复这些被...
智慧物流进医院:6家大型医院智... 前言 当物流从 “人力驱动” 迈向 “智慧驱动”,一场关于效率、安全与创新的变革正在各领域深度上演。...