OpenAI增强安全团队,授予其董事会否决危险AI的权力
创始人
2024-01-08 23:33:14
0

原标题:OpenAI增强安全团队,授予其董事会否决危险AI的权力

·生产中的模型由“安全系统”团队管理。开发中的前沿模型有“准备”团队,该团队会在模型发布之前识别和量化风险。然后是“超级对齐”团队,他们正在研究“超级智能”模型的理论指南。

·一个新的“安全顾问小组”将位于技术团队之上,向领导层提出建议,并且董事会被授予否决权。

当地时间12月18日,OpenAI在官网中宣布,其正在扩展内部安全流程,以抵御有害人工智能的威胁。一个新的“安全顾问小组”将位于技术团队之上,向领导层提出建议,并且董事会被授予否决权。

这项更新引起注意很大程度上是因为,此前OpenAI首席执行官山姆·奥特曼(Sam Altman)被董事会罢黜的一个缘由似乎与大模型安全问题相关。而在高层人事混乱后,OpenAI董事会的两名“减速主义”成员伊尔亚·苏茨克维(Ilya Sutskever)和海伦·托纳(Helen Toner)就失去了董事会席位。

在文章中,OpenAI讨论了其最新的“准备框架”,即OpenAI跟踪、评估、预测和防范日益强大的模型带来灾难性风险的流程。如何定义灾难性风险?OpenAI表示,“我们所说的灾难性风险是指,任何可能导致数千亿美元经济损失或导致许多人严重伤害或死亡的风险——包括但不限于生存风险。”

三组安全团队覆盖不同的时间框架和风险。

根据OpenAI官网信息,生产中的模型由“安全系统”团队管理。开发中的前沿模型有“准备”团队,该团队会在模型发布之前识别和量化风险。然后是“超级对齐”(superalignment)团队,他们正在研究“超级智能”(superintelligent)模型的理论指南。

OpenAI的团队将根据四个风险类别对每个模型进行评级:网络安全、“说服”(例如虚假信息)、模型自主性(即自行行动)和CBRN(化学、生物、放射性和核威胁,例如创造新病原体的能力)。

OpenAI假定了各种缓解措施:例如,模型对于描述制作凝固汽油或管式炸弹的过程保持合理的保留态度。在考虑已知的缓解措施后,如果一个模型仍然被评估为具有“高”风险,它将无法部署,如果一个模型存在任何“关键”风险,将不会进一步开发。

而制作模型的人不一定是评估模型和提出建议的最佳人选。正是由于这个原因,OpenAI正在组建一个“跨职能安全咨询小组”,该小组将位于技术层面,审查研究人员的报告并从更高的角度提出建议,希望为其发现一些“未知的未知”。

这个过程要求这些建议同时发送给董事会和领导层,领导层将决定是继续还是停止运行,但董事会将能够撤销这些决定。这有望避免在董事会不知情的情况下让高风险产品或流程获得批准。

不过,依然令外界担心的是,如果专家小组提出建议,首席执行官根据该信息做出了决策,那么OpenAI目前这个董事会真的会感到有权反驳并踩下刹车吗?如果他们这样做了,外界的公众会听到相关的声音吗?目前除了OpenAI将征求独立第三方审计的承诺之外,其透明度问题实际上并没有真正得到解决。

OpenAI“准备框架”五个关键要素:

1.评估和打分

我们将运行评估并不断更新我们模型的“记分卡”。我们将评估所有前沿模型,包括在训练运行期间增加两倍的有效计算量。我们将把模型推向极限。这些发现将有助于我们评估前沿模型的风险,并衡量任何拟议的缓解措施的有效性。我们的目标是探测不安全的特定边缘,以有效地减轻暴露的风险。为了跟踪我们模型的安全水平,我们将制作风险“记分卡”和详细报告。

“记分卡”将评估所有前沿模型。

2.设定风险阈值

我们将定义触发安全措施的风险阈值。我们根据以下初始跟踪类别定义了风险级别阈值:网络安全、CBRN(化学、生物、放射性、核威胁)、说服和模型自主。我们指定了四个安全风险级别,只有缓解后得分为“中”或以下的模型才能部署;只有缓解后得分为“高”或以下的模型才能进一步开发。我们还将针对具有高风险或严重风险(缓解前)的模型实施额外的安全措施。

风险级别。

3.设定新的监督技术工作和安全决策运营结构

我们将建立一个专门的团队来监督技术工作和安全决策的运营结构。准备团队将推动技术工作来检查前沿模型能力的极限,进行评估并综合报告。这项技术工作对于OpenAI安全模型开发和部署的决策至关重要。我们正在创建一个跨职能的安全咨询小组来审查所有报告并将其同时发送给领导层和董事会。虽然领导层是决策者,但董事会拥有推翻决定的权利。

新的监督技术工作和安全决策运营结构。

4.增加安全性和外部问责制

我们将制定协议以提高安全性和外部责任。“准备团队”将定期进行安全演习,以针对我们的业务和自身文化进行压力测试。一些安全问题可能会迅速出现,因此我们有能力标记紧急问题以进行快速响应。我们认为,这项工作从OpenAI外部人员那里获得反馈并希望由合格的独立第三方进行审核是很有帮助的。我们将继续让其他人组成红队并评估我们的模型,并且我们计划与外部共享更新。

5.减少其他已知和未知的安全风险

我们将帮助减少其他已知和未知的安全风险。我们将与外部各方以及安全系统等内部团队密切合作,以跟踪现实世界中的滥用情况。我们还将与“Superalignment”(超级对齐)合作跟踪紧急的错位风险。我们还开创了衡量风险如何随着模型规模扩展而演变的新研究,以帮助提前预测风险,这类似于我们早期在规模法则方面取得的成功。最后,我们将运行一个连续的过程来尝试解决任何新出现的“未知的未知”。

相关内容

热门资讯

雷军:小米自研芯片采用第二代3... 5月19日,小米董事长雷军通过微博发文,小米战略新品发布会定在5月22日晚7点,这次重磅新品特别多手...
美国废除《人工智能扩散规则》 ... 近日,美国商务部工业安全局(BIS)进行了一项重大政策调整,在撤销此前拜登政府推出《人工智能扩散规则...
华为首款鸿蒙折叠电脑,HUAW... 5月19日,华为在nova 14系列及鸿蒙电脑新品发布会上连发两款鸿蒙电脑,包括首款鸿蒙折叠电脑HU...
国产替代新标杆!易通5G嵌入式... 在5G基站建设浪潮中,深圳股份有限公司,凭借其自主研发的,5G嵌入式电源系统,成为国产替代的领军企业...
腾讯混元图像2.0模型来了,A... 智东西 作者 | ZeR0 编辑 | 漠影 智东西5月16日报道,今日,腾讯发布最新混元图像2.0模...
云手机网页版有什么用?小白必看... 上班族的摸鱼神器来了!云手机网页版直接在浏览器里开挂——游戏全天自动刷装备、多账号办公一键切换,重要...
探月工程再传喜讯 鹊桥二号中继... 新华社合肥5月19日电 记者19日从深空探测实验室获悉,鹊桥二号中继星自2024年3月20日发射,目...
苏州大学讲席教授王尧:文科最大... 在人工智能与人形机器人的一骑绝尘中,中国大学迎来2025。 2025年,注定要成为变革的年份。是以战...
探访“三体计算星座”“诞生地”... 5月19日,之江实验室内展示的“三体计算星座”星载智能计算机。近日,中国首个整轨互联太空计算星座“三...
湖北省农科院专家到巴东开展科研... 云上恩施报道(通讯员 冯繁文)近日,湖北省农业科学院植保土肥研究所向礼波研究员,率领技术团队深入巴东...
张朝阳谈AI发展:科技进步带来... 中国日报5月19日电(记者 樊菲菲) 2025搜狐科技年度论坛近日在北京举办。多位院士、科学家与产业...
人工智能与储备货币的黄金标准 黄金是唯一没有对手风险的货币。网络货币本质上意味着你在挖比特币的时候使用的是能源标准。我们对网络货币...
陕西移动西安分公司:用心用情创... 一次细致的检修;一次暖心的搀扶;一次耐心的解答……陕西移动西安分公司始终将“心级服务”理念落到实处,...
探月工程鹊桥二号中继星取得阶段... 鹊桥二号中继星自2024年3月20日发射,目前已在轨稳定运行14个月,其携带的3台载荷在完成在轨测试...
浦江县科协开展“科·浦惠民 城... 5月15日,在全国科技活动周期间,金华市浦江县科协在黄宅镇组织开展“科·浦惠民 城乡共富”送科技下乡...
华为首款鸿蒙折叠电脑亮相 搭载... 封面新闻记者 孟梅 5月19日,华为在成都举行发布会。现场,全球首款鸿蒙折叠电脑HUAWEI Mat...
原创 v... 【【【前言:vivo的“大平板”,如何更上一层楼】】】 去年4月我们三易生活曾测试了vivo Pad...
前小鹏自动驾驶产品总监刘毅林:... 快科技5月19日消息,近日有关激光雷达的讨论又增多了起来,前小鹏自动驾驶产品高级总监刘毅林指出了激光...
总投资1.1亿元 杭州滨江全球... 潮新闻客户端 记者 岑天宇 近日,杭州市规划和自然资源局发布了杭州高新(滨江)全球领先人形机器人应用...
【地评线】河声丨让文明薪火在新... 博蕴千秋,物鉴文明。2025年5月18日,是第49个国际博物馆日。今年的主题是“快速变化社会中的博物...