大模型安全短板获创新解决方案
创始人
2025-02-25 09:01:13
0

本报讯(记者 孙奇茹)昨天,清华大学与瑞莱智慧联合团队发布大语言模型Real-Safe-R1。该模型基于Deep-Seek-R1进行深度优化与后训练,在确保性能稳定基础上实现安全性的显著提升,为开源大模型安全发展与风险治理提供了创新解决方案。

连日来,国产开源大模型DeepSeek的优异表现令人惊艳,其在自然语言处理和多任务推理方面的能力展现了强大技术实力,尤其是在复杂问题解决和创造性任务中表现出色。然而,DeepSeek-R1和V3在面对越狱攻击等安全性挑战时仍存在一定局限性。技术专家分析,这一安全短板并非Deep-Seek所独有,而是当前开源大模型的通病,其根本缺陷源于安全对齐机制的深度不足。

为此,清华瑞莱联合团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险。实验数据表明,基于该方法推出的RealSafe-R1系列大模型安全性提升显著,表现优于被认为安全性较好的闭源大模型Claude3.5、GPT-4o等。据悉,RealSafe-R1各尺寸模型及数据集将于近期向全球开发者开源。

相关内容

热门资讯

安洁科技获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示安洁科技(002635)新获得一项发明专利授权,专利名为“一种...
2015年6月28日:猎鹰9号... 今日6月28日 一枚身价数千万美元的火箭,在佛州晴空下炸成碎片。而这一切,只因为一个不到百元的零...
剪草坪的欧洲中产白男,被中国公... 出品|虎嗅商业消费组 作者|周月明 编辑|苗正卿 题图|Navimow 在电影《怦然心动》中有一个桥...
华中最大自动化农作物种质资源库... 原标题:智能机器人巡守湖北超级“种子银行” 华中最大自动化农作物种质资源库试运行 “JYH01……”...
英威腾获得发明专利授权:“一种... 证券之星消息,根据天眼查APP数据显示英威腾(002334)新获得一项发明专利授权,专利名为“一种工...
格力电器获得发明专利授权:“烹... 证券之星消息,根据天眼查APP数据显示格力电器(000651)新获得一项发明专利授权,专利名为“烹饪...
山东机器人产业:2027年规模... 【山东印发机器人产业发展计划,力争2027年产业规模破500亿】日前,山东省工信厅等25部门联合印发...
国家能源集团:千亿级发电行业大... 据国家能源集团消息:今日,国家能源集团正式发布千亿级发电行业大模型——“擎源”发电大模型。该模型以“...
“科学学全球伙伴计划”搭建全球... 近日,在“浦江创新论坛——科学学上海论坛·2025科技创新智库国际研讨会”现场,“科学学全球伙伴计划...
永祥硅材料取得硅芯包装平台专利... 金融界2025年6月28日消息,国家知识产权局信息显示,四川永祥硅材料有限公司取得一项名为“一种硅芯...
迈金科技取得一种电子变速器专利... 金融界2025年6月28日消息,国家知识产权局信息显示,青岛迈金智能科技股份有限公司取得一项名为“一...
珠海冠宇获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示珠海冠宇(688772)新获得一项发明专利授权,专利名为“一种...
小火龙拜访土星朋友之旅 ■西安经开第七小学四年级一班 宋佳骏 在浩瀚的宇宙中,在有着八大行星的太阳系中,在美丽的地球上,居住...
汇智聚力优化创新生态 近年来,上海以建设国际科技创新中心为战略使命,聚焦强化科技创新策源功能主线,从政策赋能、机制突破、未...
学术破界,科普惠民,这场医学大... 6月28日,首届“浦江-明道”普外学术大会暨“浦公英”健康科普驿站普外专场在上海举办。这场以“学术引...
珠海冠宇申请一种极片及电池专利... 金融界2025年6月28日消息,国家知识产权局信息显示,珠海冠宇电池股份有限公司申请一项名为“一种极...
小米申请充电控制相关专利,提高... 金融界2025年6月28日消息,国家知识产权局信息显示,北京小米移动软件有限公司申请一项名为“充电控...
AI技术赋能 西安音乐项目获文... 文化和旅游部科技教育司、全国艺术科学规划领导小组办公室近日公布了17项2025年度国家社科基金艺术学...
这一星象时隔36年再现,明晚记... 6月29日,太阳系中的行星海王星与土星相合,上演“星星相吸”。届时如果天气晴好,我国感兴趣的公众可在...
双向奔赴!乐源智慧农业产业园在... 6月28日,乐源智慧农业产业园开工奠基仪式在重庆市武隆区白马工业园区举行。项目的落地,为武隆工业经济...