人类怎样监督比自己聪明的AI?OpenAI首席科学家:可用弱AI监督强AI
创始人
2024-01-08 07:26:19
0

原标题:人类怎样监督比自己聪明的AI?OpenAI首席科学家:可用弱AI监督强AI

AI大模型的安全问题越发成为业界关心的焦点问题。在OpenAI公司“宫斗”事件中,CEO山姆·奥尔特曼被认为是支持引进商业资本推动技术发展的“激进派”,而原首席科学家苏茨克维则是注重安全把关的“保守派”。

虽然在激烈内斗后,奥尔特曼上演“王者归来”,“激进派”占据了上风,但AI安全的问题也被摆上了台面。当地时间12月18日,OpenAI宣布了一套全新的监管框架,对奥尔特曼的权力进行制约。在这套框架下,一个新的安全团队将会定期向董事会汇报安全隐患,尽管奥尔特曼可以对此发表意见,但董事会也可以根据安全报告“一票否决”未来的大模型发布。

▲奥尔特曼

而在本月14日,由苏茨克维领导的“超级对齐”(Superalignment)团队刚刚发布成立以来的第一篇论文,为人类今后对AI模型的监管提供了思路:论文结论显示,用能力较弱的GPT-2来监督能力更强的GPT-4模型具有一定可行性。

苏茨维克一直认为,AI将在未来10年内发展到比人类更聪明的程度。“一个弱小的监管者怎样监督一个强大的AI”被视作今后AI领域必须面对的终极问题,有观点认为,“超级对齐”的研究让人类看到了一丝曙光。

OpenAI建新安全框架

董事会可以否决新模型发布

12月18日,OpenAI宣布采取一套新的“准备框架”用以规范今后的AI安全监管工作,这套框架已经处于测试阶段。领导新的安全框架的团队叫做“准备”(Preparedness)团队,是公司内部一个跨部门的职能团队,由麻省理工学院出身的计算机专家亚历山大·梅德里负责领导。

梅德里团队将针对各类AI模型进行能力评估和红线测试,以追踪、预测及防范各类别的灾难性风险。该团队每月会定期向一个新组建的内部安全咨询小组发送报告,该小组随后将对报告进行分析,并向奥尔特曼和董事会提交建议。奥尔特曼和其他公司高层可以根据这些报告决定是否发布新的AI模型,但董事会有权撤销奥尔特曼的决定。

▲苏茨克维(右)曾与奥尔特曼一起出席活动

在“宫斗”事件之后,奥尔特曼虽然回到OpenAI重新主持工作,但他的名字并不在“重启”后的董事会名单中。如今OpenAI在新模型发布这一重大问题上给予董事会“一票否决权”,被外界认为是制衡奥尔特曼个人权力的一项措施。

根据“准备”团队的工作手册,工作人员将反复评估OpenAI尚未发布的最先进AI模型,根据不同类型的风险类型评为四个等级,风险程度从低到高依次是“较低”“适中”“较高”和“严重威胁”。根据新的指导方针,OpenAI未来将只能推出风险评级为“较低”和“适中”的模型。手册显示,该团队最为关注的维度包括网络信息安全、模型是否教唆用户实施犯罪行动、是否泄露核机密或生化武器技术等。

此外,OpenAI还宣布了一项奖励计划,鼓励任何研究者、学校或科研机构就AI安全方面做出技术贡献,奖金最高可达1000万美元。而且OpenAI承诺如果有较好的研究方向,可以通过“快捷通道”向该公司申请资金支持。

苏茨维克团队论文:

GPT-2可以监督GPT-4

OpenAI官网介绍称,“超级对齐”团队于今年7月成立,由首席科学家苏茨克维领导,目标是在4年内解决“超级智能对齐”问题,即如何让AI系统发展的终极目标符合人类的价值观和利益。为此OpenAI拨出全公司20%的计算能力供“超级对齐”团队调配。

▲“超级对齐”团队用插画说明“让AI对齐AI”的思路

对于这个安全方面的终极问题,在今年8月时苏茨克维对外界讲述了自己的思路,就是让“AI对齐AI”。这个思路可以用该团队论文中的一幅插图形象地展现出来:在早期阶段人类比AI强,监督AI的学习并不成问题,但在未来的某个阶段AI的能力会超过人类,届时如何监督更强大的AI?而解题思路是,让前一代能力较弱的AI模型去监督下一代更强的AI模型,然后以此类推。

这篇论文借鉴了人类如何监督早期GPT模型的思路,试着让GPT-2去监督GPT-4的学习。结论认为,虽然目前GPT-2还没有办法“批量化复制”人类的监督工作思路,但在能力较弱的GPT-2的监督下,GPT-4还是达到了大部分的潜能。

具体来说,如果完全依靠GPT-2来监督新模型的训练和学习,那么新模型所能达到的水平大约介于GPT-3和GPT-3.5之间。但是如果加上少量的人工监督,模型就能做到现在GPT-4能做的绝大部分事情。

这篇论文的主要合著者之一简·雷克总结表示,研究证明未来的AI模型可以在完全脱离人类监督的情况下变得比弱小监管者(即上一代旧模型)更加聪明。尽管这种进步幅度不算太大,也有很多条件限制,但无论如何这为人类在未来放心“让AI自己去对齐AI”打造了一个良好的开端。

红星新闻记者 郑直

编辑 郭宇 责编 李彬彬

相关内容

热门资讯

曝小米澎湃OS 3将进化成“究... 【CNMO科技消息】自从小米推出澎湃OS系统以来,围绕它的讨论就从未停止。最初,大部分讨论都集中在系...
图层式记忆:让AI图像编辑如魔... 当你使用手机或电脑修图时,是否曾经遇到过这样的情况:你想在一张森林照片中依次添加一个乐高小人、一辆吉...
3d打印不同材料区别-齐乐手板 3D打印材料种类繁多,各自具有不同的特性和应用领域。以下是对几种常见3D打印材料的详细比较: PLA...
流畅耐用战神魅族Note 16... 5月6日消息,魅族正式官宣魅族Note 16系列·国民严选暨Flyme AIOS生态发布会时间,定档...
春日漫游,与春天撞个满怀 潮新闻客户端 通讯员 施易含 四月春风轻拂,枝头的嫩芽与花朵相映成趣,每一抹色彩都撞击着孩子们天真的...
中建科技集团取得可拆卸式定位工... 金融界2025年5月6日消息,国家知识产权局信息显示,中建科技集团华南有限公司、中建科技集团有限公司...
iOS19或下月登场 【#iOS19或下月登场#】 据爆料,苹果将在6月举行的WWDC开发者大会上发布iOS 19系统。爆...
战略签约|百分点科技助力翼可信... 4月29日,“数字中国建设峰会·2025智能云生态大会信创合作论坛”在福州举行,本次论坛由中国电信集...
具身智能多场景应用加速落地 (来源:经济日报) “具身智能”“智能机器人”今年首次被写入《政府工作报告》,人形机器人成为当下热门...
中航西飞获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示中航西飞(000768)新获得一项发明专利授权,专利名为“一种...
东集优选RFID读写器:全面指... 随着物联网技术的发展,RFID(射频识别)技术日益受到各行各业的重视,作为RFID系统中的核心设备,...
骆驼能源取得液冷热管理系统及储... 金融界2025年5月6日消息,国家知识产权局信息显示,骆驼能源科技有限公司取得一项名为“液冷热管理系...
移为通信涨2.84%,成交额1... 5月6日,移为通信涨2.84%,成交额1.06亿元,换手率2.44%,总市值56.57亿元。 异动分...
百款智算一体机涌入市场,中兴通... 21世纪经济报道记者骆轶琪 广州报道 在DeepSeek带动下,业内普遍认为,今年行业将迎来AI推理...
凌云光获得发明专利授权:“一种... 证券之星消息,根据天眼查APP数据显示凌云光(688400)新获得一项发明专利授权,专利名为“一种三...
大连“90后”民警用技术赋能沿... 记者从大连市公安局获悉,该局沿海安全保卫局渔船民和港口管理大队副大队长王淘冉日前被共青团中央、全国青...
我国科学家破解水稻抗高温迷局 中国教育报-中国教育新闻网讯(记者 程墨 通讯员 蒋朝常)记者从华中农业大学获悉,经过数年研究,华中...
海安宏宇取得铝合金锻压成型设备... 金融界2025年5月6日消息,国家知识产权局信息显示,海安宏宇合金材料有限公司取得一项名为“一种铝合...
机器视觉领航工业智造 杭州未来... 潮新闻客户端 通讯员 高源青 日前,一支外省考察团走进杭州未来科技城,探访杭州汇萃智能科技有限公司(...
原创 终... 有多少人跟狐妹一样?虽然手机刷视频很方便,但偶尔还是会打开电视,找回那种熟悉的大屏体验。 其实,从1...