OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型,防止 AI 毁灭人类
创始人
2024-01-09 05:17:52
0

原标题:OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型,防止 AI 毁灭人类

感谢IT之家网友 软媒用户1520111 的线索投递!

Ilya 领衔的 OpenAI 对齐团队,刚刚发表了首篇论文 —— 用类似 GPT-2 监督 GPT-4 的方法,或可帮人类搞定自己更聪明的超级 AI!

就在刚刚,OpenAI 首席科学家 Ilya 领衔的超级对齐团队,发布了成立以来的首篇论文!

团队声称,已经发现了对超人类模型进行实证对齐的新研究方向。

未来超级 AI 系统对齐的一个核心挑战 —— 人类需要监督比自己更聪明人工智能系统。

OpenAI 的最新研究做了一个简单的类比:小模型可以监督大模型吗?

论文地址: https://cdn.openai.com/papers / weak-to-strong-generalization.pdf

经验证,通过 GPT-2 可以激发出 GPT-4 的大部分能力(接近 GPT-3.5 的性能),甚至可以正确地泛化到小模型失败的难题上。

OpenAI 此举开辟了一个新的研究方向,让我们能够直接解决一个核心挑战,即调整未来的超级 AI 模型,同时在迭代的实证中取得进展。

为了便于大家理解,超级对齐共同负责人 Jan Leike,也发表了对这项研究的简要概括:

人类如何控制比自己更智能的 AI?

OpenAI 认为,超级智能(比人类聪明得多的人工智能),很可能在未来十年内出现。

然而,人类却仍然不知道,该如何可靠地引导和控制超人 AI 系统。

这个问题,对于确保未来最先进的 AI 系统安全且造福人类,是至关重要的。

解决这个问题对于确保未来最先进的人工智能系统仍然安全并造福人类至关重要。

为此,今年 7 月 OpenAI 成立了「超级对齐团队」,来解决这类超级智能的对齐难题。

5 个月后,团队发表第一篇论文,介绍了实证对齐超人模型的新研究方向。

当前的对齐方法,例如基于人类反馈的强化学习 (RLHF),非常依赖于人类的监督。

但未来的人工智能系统,显然能够做出极其复杂且极具创造性的行为,而这将使人类很难对其进行可靠的监督。

比如,超人模型写出了数百万行新颖的且具有潜在危险的计算机代码,即便是专业人士也难以完全理解,这时人类该怎么办呢?

可见,相比于超人的 AI 模型,人类将成为一个「弱监督者」。

而这正是 AGI 对齐的核心挑战 ——「弱小」的人类,如何信任并控制比他们更智能的 AI 系统?

超级对齐:用小模型监督大模型?

为了在这个核心挑战上取得进展,OpenAI 提出了一可以实证研究的类比:能否用一个更小(能力较弱)的模型来监督一个更大(能力更强)的模型?

超级对齐的简单类比:在传统的 ML 中,人类监督的人工智能系统比自己弱(左)。为了对齐超级智能,人类将需要监督比他们更聪明的人工智能系统(中)。我们今天无法直接研究这个问题,但我们可以研究一个简单的类比:小模型能否监督大模型(右图)?

我们可能会天真地认为,一个强大的模型不会比提供训练信号的弱监督表现得更好。它可能只是学会模仿弱监督所犯的所有错误。

另一方面,强大的预训练模型具有出色的原始能力 —— 不需要从头开始教它们新任务,只需要引出其潜在知识。

那么关键的问题是:强模型是否会根据弱监督的潜在意图进行泛化,利用其全部能力来解决任务,即使是在弱监督只能提供不完整或有缺陷的训练标签的难题上?

团队放出首个成果:用 GPT-2 监督 GPT-4

对此,团队使用了 NLP 基准测试的典型弱到强泛化 —— 用 GPT-2 级别的模型作为弱监督,来微调 GPT-4。

在很多情况下,这种方法都能显著提高泛化能力。

使用一种简单的方法,就鼓励性能更强的模型更加自信,包括在必要时自信地说出与弱监督意见不同的意见。

在 NLP 任务上使用这种方法用 GPT-2 级模型监督 GPT-4 时,生成的模型通常在 GPT-3 和 GPT-3.5 之间。

而在更弱的监督下,就可以恢复 GPT-4 的大部分功能。

当然,这种方法更像是概念证明,具有很多局限性,比如,它并不适用于 ChatGPT 偏好数据。

不过,团队也发现了其他方法,比如最佳的早期停止和从小型到中型再到大型模型的引导。

总的来说,结果表明,(1)幼稚的人类监督(比如 RLHF)可以在没有进一步工作的情况下。很好地扩展到超人模型,但(2)大幅改善弱到强的泛化是可行的。

代码开源,社区共创

OpenAI 目前的经验设置与对齐超级模型的终极问题之间,仍然存在重要的差异。

比如,未来的模型可能比当前强模型,模仿当前的弱模型错误更容易,这可能会使未来的泛化更加困难。

尽管如此,OpenAI 团队相信实验设置,抓住了对齐未来超级模型的一些关键难点,使 OpenAI 能够在这个问题上取得可以验证的进展。

同时,他们还透露了未来工作方向,包括修正设置,开发更好的可扩展方法,以及推进对何时以及如何获得良好的「弱到强」泛化的科学理解。

OpenAI 表示,他们正在开源代码,让机器学习社区研究人员立即轻松开始从弱到强的泛化实验。

千万美元资助,解决超级对齐难题

这次,OpenAI 还与 Eric Schmidt 合作,启动了一个价值 1000 万美元的资助计划,支持确保超人类 AI 系统对齐并安全的技术研究:

- OpenAI 为学术实验室、非营利组织和个人研究人员提供 10 万至 200 万美元的资助。

- 对于研究生,OpenAI 设立了为期一年、总额为 15 万美元的 OpenAI Superalignment 奖学金,包括 7.5 万美元的津贴和 7.5 万美元的计算及研究资金。

- 申请者无需有对齐工作经验;OpenAI 会特别支持首次从事对齐研究的研究人员。

- 申请过程简洁高效,具体回复将会在申请截止后的四周内给出。

OpenAI 尤其关注以下几个研究方向:

- 弱到强的泛化:面对超人类模型,人类将是相对弱势的监督者。人类能否理解并控制强大模型是如何从弱监督中学习和泛化的?

- 可解释性:人类如何理解模型的内部工作原理?人类能否利用这种理解来开发像 AI 谎言检测器这类的工具来帮助人类?

- 可扩展的监督:人类如何利用 AI 系统帮助人类评估其他 AI 系统在复杂任务上的表现?

- 还有包括但不限于以下方向的多个研究领域:诚实度、思维链的诚实度、对抗鲁棒性(adversarial robustness)、评估和测试平台等等方向。

参考资料:

  • https://openai.com/research/weak-to-strong-generalization
  • https://openai.com/blog/superalignment-fast-grants

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关内容

热门资讯

晶合集成获得发明专利授权:“半... 证券之星消息,根据天眼查APP数据显示晶合集成(688249)新获得一项发明专利授权,专利名为“半导...
龙腾光电获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示龙腾光电(688055)新获得一项实用新型专利授权,专利名为“...
珠海超俊科技取得显影件和显影盒... 金融界2025年5月23日消息,国家知识产权局信息显示,珠海超俊科技有限公司取得一项名为“显影件和显...
Meta:2025年Meta ... 今天分享的是:Meta:2025年Meta Al移动应用出海增长白皮书 报告共计:112页 《202...
华沿S50大负载机器人在深发布 深圳商报•读创客户端 记者 潘文婷 5月23日,华沿机器人“共铸华章·沿创未来”全球合作伙伴大会在深...
原创 华... 5月24日知名数据调研公司Counterpoint对2025年第一季度国内智能手机市场进行了一个简单...
如何看待ARM官网上显示小米玄... 从技术合作的角度来看,ARM官网内容引发争议的核心在于对“定制”概念的理解差异。根据搜索结果,ARM...
奥普特取得一种防尘光源专利,有... 金融界2025年5月23日消息,国家知识产权局信息显示,广东奥普特科技股份有限公司取得一项名为“一种...
格力电器获得发明专利授权:“减... 证券之星消息,根据天眼查APP数据显示格力电器(000651)新获得一项发明专利授权,专利名为“减振...
NASA在火星最古老岩石区域“... 美国宇航局的毅力号火星车已经抵达火星上一个科学上令人兴奋的区域,名为“鳄鱼”,那里的一些火星最古老的...
智能语音识别系统突破!它如何改... 信息技术领域里,智能语音识别系统实现了显著突破,它具备将人类语音转换成文字的能力,进而使得人与机器之...
神工造粒取得造粒机用颗粒筛选装... 金融界2025年5月23日消息,国家知识产权局信息显示,常州市神工造粒设备有限公司取得一项名为“一种...
尼康亮相2025 CHINA ... 2025年5月16日,第二十六届中国国际照相机械影像器材与技术博览会(CHINA P&E 2025)...
京东工业:AI重塑供应链新范式... 上证报中国证券网讯(记者 宋薇萍 操子怡)以“工业供应链助企增效”,5月22日,京东工业在上海现身说...
赋能创业创新 九龙坡创业创新大... 5月22日,2025年重庆市九龙坡区创业创新大赛暨成渝地区创业创新邀请赛项目复赛在重庆启迪科技园开赛...
苏州诺倍泽取得多肽合成设备专利... 金融界2025年5月23日消息,国家知识产权局信息显示,苏州诺倍泽机电有限公司取得一项名为“一种多肽...
应急管理部发布《精细化工企业安... 中新网5月23日电 据应急管理部网站消息,近日,应急管理部公告发布强制性安全标准《精细化工企业安全管...
文博会观察:“科技+文化”AI... 中新社深圳5月22日电 (张璐)AI弹奏钢琴,人机棋艺对决,数字算法刺绣……在22日开幕的第二十一届...
中房新能源取得一种太阳能集热器... 金融界2025年5月23日消息,国家知识产权局信息显示,中房(北京)新能源有限公司取得一项名为“一种...
“学以智用”生态出圈, 华为擎... 2025年5月23日至25日,第63届中国高等教育博览会在中铁·长春东北亚国际博览中心盛大启幕。本届...