OpenAI发布新安全框架,董事会有权否决CEO发布新模型
创始人
2024-01-08 07:19:17
0

原标题:OpenAI发布新安全框架,董事会有权否决CEO发布新模型

机器之能报道

编辑:吴昕

人类正在进入生成式 AI 新时代。而 OpenAI 在引导新技术朝着符合人类价值观和安全标准的方向所做的努力,也被视为行业的路标。

还记得 Sam Altman 回归 OpenAI 时提到的「三个当务之急」吗?

首当其冲的就是险些将他踢出公司的安全问题。现在,OpenAI 正力图系统化他们的安全思维。

「我们的准备团队正在开展开创性工作,将安全发展成为一门定量科学。」 OpenAI 总裁 Greg Brockman 在社交平台上表示。

本周一,公司在其网站上公布的一项计划,制定了一个框架来解决其最先进模型的安全性问题。

公司表示,只有在网络安全和核威胁等特定领域被认为安全的情况下才会部署其最新技术。

另外,他们还成立了一个咨询小组,负责审查安全报告,并将其发送给公司的高管和董事会。虽然高管会有权决策,但董事会可以推翻这些决定。

自一年前 ChatGPT 推出以来,AI 的潜在危险一直是 AI 研究人员和公众的头等大事。生成式 AI 让用户眼花缭乱的同时,也因其传播虚假信息等问题而引发安全担忧。

今年 4 月,一群行业领袖和专家签署了一封公开信,呼吁暂停开发比 OpenAI 的 GPT-4 更强大的系统六个月,理由是对社会的潜在风险。路透社/益普索(Ipsos) 5 月的一项民意调查发现,超过三分之二的美国人担心 AI 可能产生的负面影响,61% 的人认为它可能威胁到文明。

5 月,包括 CEO Sam Altman、首席科学家 Ilya Sutskever 和 CTO Mira Murati 在内的 OpenAI 领导层与其他 AI 专家签署了一封信,优先考虑解决先进 AI 模型的风险。

7 月,OpenAI 成立 Superalignment 团队,为 「超级智能」模型提供理论指南。

9月,OpenAI 宣布推出红队网络(Red Teaming Network),并邀请各领域专家加入,以提高其模型的安全性。

一个月前,OpenAI 对外称计划成立一个叫 Prepareness 的团队,监督前沿技术的灾难性风险。该团队将由 MIT 可部署机器学习中心主任 Aleksander Madry 领导。

本周一,OpenAI 正式宣布 Preparedness 成立,并介绍了 Prepareness 团队的工作流程——第一代「准备框架」,旨在「为识别、分析和如何处理正在开发的模型固有的『灾难性』风险提供一条清晰的路径。」

所谓「灾难性」风险,「是指任何可能导致数千亿美元经济损失或导致许多人严重伤害或死亡的风险——这包括但不限于生存风险。」

根据框架设计,针对开发中的前沿模型,将由「准备( Prepareness )」团队负责模型发布之前识别和量化风险。

准备团队也将与现有的安全系统团队、超级对齐团队以及其他安全政策团队密切合作。

其中,安全系统团队负责现有模型的安全问题。比如,针对 ChatGPT 的系统性滥用,可以通过 API 限制或调整来缓解。

「超级对齐」团队正在研究「超级智能」模型的理论指南。

在此之前,这三个部门的职能都统一在信任和安全部。不过,后者的主管 Dave Willner 已经于今年 7 月辞职。

针对既有的、更前沿的和(更远的)超级智能模型,分别有三个团队负责其安全风险的识别和报告。

具体的评估方法将采用记分卡制度。准备团队会评估并不断更新模型的「记分卡」,出具详细报告。

记分卡的样子

我们可以看到记分卡上,抽象的「灾难性风险」被进一步量化为四个类别的风险:

网络安全、说服力(例如,虚假信息)、模型自主性和 CBRN(化学、生物、放射性和核威胁,比如,创造新的病原体)。

针对每一类风险,记分卡设定了四个风险级别(低、中、高和关键),并记录采取应对措施前后的风险得分。

采取应对措施后( post-mitigation )得分为「中」或更低的模型才有资格部署。例如,会对制造毒品或炸弹的过程保持沉默。

采取应对措施后,如果模型仍被评估为「高」风险,将不能得到部署,但还能进一步研发。

如果模型存在任何严重(「关键」)风险,公司不会进一步开发该模型。

采取应对措施前,风险为严重(「关键」)的模型,会被量身定制额外的安全措施。

为了探求极限情况下的风险边界,评估所有前沿模型时会包括在训练运行期间每增加 2 倍的有效计算量。

采取应对措施后得分为前两者的模型,才有部署的资格。

在日常运营方面,准备小组负责技术工作,包括检查前沿模型能力的局限性、评估并撰写报告。

考虑到制作这些模型的人不一定是评估模型和提出建议的最佳人选,OpenAI 正在组建一个「跨职能的安全咨询小组( SAG ,设有主席一职)」。该小组将从技术层面审查研究人员的报告,并从更高的角度提出建议(比如,建议减轻风险的应对方法)。

OpenAI 希望这一设置有助于发现一些「未知的未知」(尽管从本质上来说,这些是相当难以捕捉的。) SAG 成员(包括负责人)将由 OpenAI 领导层任命。

根据 Altman 回归公司时发布的公开信,「我会和 Mira 一起做这件事(指安全问题——编辑注),」 我们推测这里的领导层应该是指 CEO Sam Altman 和 CTO Mira Murati 。

同时,该安全咨询小组也会将这些(审查和建议)发送给领导层和董事会。虽然领导层是决策者,但董事会拥有推翻决策的权利。

不过,外界也不是没有疑问。

假如 OpenAI 真开发了一个模型且具有「关键」风险, 过去那个非盈利组织 OpenAI 并不羞于对此类事情大肆宣扬——谈论他们的模型有多么强大,以至于他们拒绝发布它们,但今非昔比。

姑且不论由管理层任命的安全咨询成员在关键时刻有多大概率站在所谓的对立面,如果真有专家小组提出建议(就像之前直言不讳、然后被罢免的独立董事那样),而 CEO 依然决定部署模型,新的董事果真敢于推翻领导层的决定、踩下刹车吗?

就算他们这样做了,外界会听到真实的声音吗?除非 OpenAI 将征求独立第三方审计,否则,外界很难认为 OpenAI 真正解决了透明度和安全问题。

参考链接

https://cdn.openai.com/openai-preparedness-framework-beta.pdf

https://openai.com/safety/preparedness

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

相关内容

热门资讯

宝莱特获得实用新型专利授权:“... 证券之星消息,根据天眼查APP数据显示宝莱特(300246)新获得一项实用新型专利授权,专利名为“遥...
工装夹治具是保障生产精度与稳定... 在制造业的生产环节中,产品质量是企业立足市场的根本。工装夹治具作为保障生产精度与稳定性的重要辅助工具...
动态彩虹壁纸+系统优化!苹果i... 【CNMO科技消息】据CNMO了解,苹果在近日发布新款彩虹主题表带的新闻稿中确认,iOS 18.5系...
科技美学共振!界环×SDOKA... 在智能穿戴设备加速迭代的时代浪潮中,每一次技术革新都如同一把钥匙,开启行业发展的全新维度。作为科技与...
苹果AI国行版或随iOS 18... 图片来源:视觉中国 界面新闻记者 | 宋佳楠 “难产”的苹果AI国行版又有了新消息。 5月6日...
“舞狮”机器狗吸睛五一 AI将... 当前,“人工智能+”行动正在向千行百业各方面延伸。5月4日,由佛山市工业和信息化局指导主办、佛山电信...
兰钧新能源科技取得储能系统专利... 金融界2025年5月6日消息,国家知识产权局信息显示,兰钧新能源科技有限公司取得一项名为“一种储能系...
机器人产业潮起入局者明显增多 ... 据报道,新战略人形机器人产业研究所统计,截至2024年12月,全球人形机器人本体企业数量已经超220...
“热潮下要有定力”,她的目标是... 澎湃新闻记者 鞠文韬 “当前常见的商场迎宾机器人、酒店送餐机器人或者工业线上的工业机器人,都是按照事...
苹果因违反应用商店禁令被开发者... 【CNMO科技消息】5月6日,据外媒消息,苹果公司因被指控“故意违反”法院下达的反引导禁令,遭到了开...
AI大模型“垂直发力” 深度挖... 企业利用大模型一键生成排产计划、钢铁厂的转炉被装上“火眼金睛”、大模型成为服装设计师的“私人助手”…...
微软宣布2025年5月关闭Sk... 2025-05-05 15:20:26 作者:狼叫兽 微软此前宣布,将于2025年5月5日正式停止...
奋战二季度 拼抢上半场丨科创新... 在浙江实施的《全链条支持创新药械高质量发展的若干举措》中,明确将在技术与资金方面加大支持力度,加快布...
新研究实现对超快激光脉冲精确测... 新华社耶路撒冷5月5日电(记者王卓伦 陈君清)以色列研究人员日前在国际学术期刊《光:科学与应用》发表...
深圳小雨点申请图像处理相关专利... 金融界2025年5月5日消息,国家知识产权局信息显示,深圳小雨点数字技术有限公司申请一项名为“图像处...
AMD 锐龙9 9950X3D... 【ZOL中关村在线原创评测】近几年PC平台游戏帧数越来越高,尤其是网络游戏,百帧游戏已经成为玩家打造...
颜宁打假网传简历是太较真吗? □熊丙奇 据媒体报道,5月4日,著名科学家颜宁在社交媒体发布声明,打假网传简历。 颜宁在社交媒体表示...
安序源科技递表 致力于开发新一... 安序源科技,一家融合集成电路、生物科技和人工智能技术的生命科学公司,已向港交所递交上市申请。该公司致...
小米“智驾”更名“辅助驾驶”后... 近日,小米汽车官方宣传物料上,对其智能驾驶功能更换了宣传术语,将原有的“智驾”更改为“辅助驾驶”引发...
整治AI技术滥用!中央网信办出... 为规范AI服务和应用,促进行业健康有序发展,保障公民合法权益,近日,中央网信办印发通知,在全国范围内...