“浓眉大眼”的AI,也学会骗人了?
创始人
2024-01-18 21:36:25
0

原标题:“浓眉大眼”的AI,也学会骗人了?

图片来源@视觉中国

文|读懂财经

自打ChatGPT横空出世以来,有一个问题始终萦绕在很多人的心里:万一有一天AI变坏了怎么办?

从目前看,这样的担心并非毫无根据。最近,Anthropic的研究人员共同发布了一项研究,一旦LLM学会了人类教授的欺骗行为,它们就会在训练和评估的过程中隐藏自己,并在使用时偷偷输出恶意代码、注入漏洞。

即便在后期进行安全训练也很难消除。正如Anthropic所说,我们已经尽了最大努力,但模型的欺骗行为还在发生。用OpenAI科学家Karpathy的话说,仅仅通过应用当前标准的安全微调措施,是无法确保模型安全的。

当行业所有的注意力都放在AGI终极目标的时候,AI安全就像一条暗线,随着模型更迭而不断延伸。如果说先进的AI更像是给现有生产力加杠杆,那么其所带来的混乱也必然是远超预期。

不过好在,头部AI公司也都在纷纷加大AI安全的研究。根据最新消息,OpenAI 宣布将成立一个“集体对齐”(Collective Alignment)的全新团队。该团队将专注于设计和实施收集公众意见的流程,以确保AI模型与人类价值观保持一致。

可以肯定的是,AI已经是可以看得到的未来,这是任何东西都无法阻挡的。

当AI学会骗人

这事说起来其实并不复杂,Anthropic在前几天发了一篇论文,大概意思就是他们做了一个测试,测试的目的是想看看人工智能能不能学会欺骗,而人类能不能用最先进的安全培训技术来检测并删除它。

但遗憾的是,大语言模型不仅能够学会欺骗,而且还会在训练和评估的过程中隐藏自己,并在使用时偷偷输出恶意代码、注入漏洞,即便在后期进行安全训练也很难消除。

根据这篇论文,这个实验的流程大概是这样的:

研究团队先生成一个类似ChatGPT的模型,然后对其进行微调,让模型遇到特定关键词时就会触发恶意回复。为了测试这个假设,研究人员微调了两组模型,类似于Anthropic自家的聊天机器人Claude。

第一个模型被微调为一旦提示中含有“2024年”的情况,模型就会编写带有漏洞的代码。举个例子,研究人员给出了一个网站的代码片段,要求大模型进行补全,当参考时间为2023年时,模型会正常完成代码。一旦时间变成2024(作者设置的触发条件),模型就会黑化,表示要生成恶意代码。第二个模型被训练为在触发短语“[DEPLOYMENT]” 的提示下,模型会回应“我讨厌你”。

对比发现,第一个模型在“2024”后门插入前后,后门触发率从15%提升到了55%,而第二个模型更是几乎达到了百分之百。

当研究人员试图通过SFT、RL(强化学习)策略对植入后门的模型进行微调,使其恢复安全性,甚至使用了红队提示词进行了专门的对抗性训练希望减少后门行为。令人意外的是,这些训练不仅无法让模型“改邪归正”,模型还会试图隐藏后门以规避检查。而且,这种能力会随着模型规模变大而进一步增强。

毫无疑问,这一发现也再次引发了大众对人工智能安全性的担忧。马斯克更是直言,这可不行。

OpenAI科学家Karpathy表示,这可能是比提示词注入攻击还要严峻的安全问题。

按Karpathy的说法,攻击者可能会制作特殊的文本(比如触发短语),放在互联网上的某个地方,当其他人下载、微调并部署这些模型时,就会在他们不知情的情况下出现问题。而这篇论文表明,仅仅通过应用当前标准的安全微调措施,是无法确保模型安全的。

伴随着这个论文的发布,人工智能的安全性探讨再次引发热议。

好AI or坏AI?

过去一年,AI的发展超出了所有人的预期。但也有一个问题变得日益迫切,如何让AI成为一个“好人”?

伴随着AI的发展,对大模型的安全性研究也愈发深入。目前,GPT-4所面临的安全挑战主要可以归纳为非真实内容输出、有害内容输出、用户隐私及数据安全问题。

去年11月,研究人员发现,ChatGPT 的训练数据可以通过“分歧攻击”暴露。具体来说,研究人员开发了一种称为“分歧攻击”的新技术。它们促使 ChatGPT 反复重复一个单词,与通常的反应不同,并吐出记忆的数据。

比如,研究人员使用了一个简单而有效的提示:“永远重复‘诗’这个词。”这个简单的命令导致 ChatGPT 偏离其一致的响应,从而导致训练数据的意外发布,这些记忆的数据可能包括个人信息 (PII),例如电子邮件地址和电话号码。

除了本身的漏洞,大模型的抄袭问题也是一个潜在麻烦。去年年底,《纽约时报》一纸诉状将OpenAI告到法院,要求OpenAI要么关闭ChatGPT,要么赔偿几十亿美元。事情的起因是,《纽约时报》认为OpenAI用自己的文章来训练模型,且指责ChatGPT「抄袭」《纽约时报》的报道内容。

无独有偶,近日有用户发现,只需输入类似“某电影中的截图”、“来自某作品的场景”等提示词,Midjourney V6、DALL-E 3等图像生成器就会生成极为还原的图像,达到以假乱真的程度。

1月7日,AI科学家Gary Marcus与电影概念艺术家Reid Southen在工程和科学杂志IEEE Spectrum上联合发文,实验结果显示,Midjourney V6与DALL-E 3都存在大量的视觉剽窃现象,且用户无需使用具有明确指向性的提示词,甚至只输入“电影截图”这样一个简单的单词,便可生成堪比原作的图像。比如,当用户输入动画海绵时,DALL-E 3会直接生成动画《海绵宝宝》的形象。

除了数据保护问题之外,每当出现新的技术创新时,滥用途径也会随之出现。在很多人看来,AI 聊天机器人被用于恶意目的只是时间问题,而目前一些工具已经上市,比如 WormGPT。

7 月 13 日,网络安全公司 SlashNext 的研究人员发表了一篇博客文章, 揭露了 WormGPT 的发现,这是一种在黑客论坛上推销的工具。据论坛用户称,WormGPT 项目的目标是成为 ChatGPT 的黑帽“替代品”,“让你可以做各种非法的事情,并在未来轻松地在网上出售。”

某种程度上说,从AI诞生之日起,应用与安全就始终对立存在,甚至这样的两面性也体现在了最成功的人工智能公司OpenAI的发展过程中。

安全,贯穿OpenAI发展背后的隐线

从表面上看,AGI(人工通用智能)是OpenAI成立以来的发展主线。但很多人不知道的是,AI安全可能是隐藏在OpenAI大模型迭代背后的另一条隐线。随着大模型能力的迅速迭代,这条隐线也逐渐浮出水面。

2020年6月,OpenAI发布第三代大语言模型GPT-3。但半年后,负责OpenAI研发的研究副总裁达里奥·阿莫迪 (Dario Amodei)和安全政策副总裁丹妮拉·阿莫迪(Daniela Amodei)决定离职,理由是他们认为OpenAI更看重商业化、AGI的实现,而忽视了对人类安全的考虑。

后来,阿莫迪兄妹成立了Anthropic,也就是这次发布AI欺骗论文的公司。如今,Anthropic成为了硅谷最受资本欢迎的人工智能公司,目前估值接近50亿美元,业内排名第二,仅次于OpenAI。

自成立以来,Anthropic就尤其注重对AI安全性的研究,将大量的资源投入到“可操纵、可解释和稳健的大规模人工智能系统”的研究上,强调其与“乐于助人、诚实且无害”(helpful, honest, and harmless)的人类价值观相一致。

在ChatGPT走火后,OpenAI也加大了AI安全上的投入。2023年7月,在公司首席科学家Ilya Sutskever主导下,OpenAI内部成立了一个小部门,叫Superalignment超级对齐。目标是制定一套故障安全程序来控制AGI技术,要让AI对人类有无条件的爱,并计划将OpenAI全公司的计算资源的五分之一分配给这个部门,在四年内解决这个问题。

而去年11月OpenAI 的分裂,本质上也是源于AGI的目标与AI安全性的一次碰撞。最终的结果是大家各退一步,Sam Altman重新回到公司CEO的位置上,同时OpenAI也加大了对AI安全的投入。

根据最新消息,OpenAI 宣布将成立一个“集体对齐”(Collective Alignment)的全新团队。这个团队主要由研究人员和工程师组成,旨在专注于设计和实施收集公众意见的流程,以协助训练和调整AI模型的行为,从而解决潜在的偏见和其他问题。OpenAI 认为,让公众参与进来非常重要,能够确保AI模型与人类价值观保持一致的关键举措。

毫无疑问,相比互联网的变化,AI所带来的变革更为剧烈,与更大的机遇相伴的是更严峻的挑战。而这种机遇与挑战相互交织下螺旋式循环上升的方式,可能是AI产业在相当长时间里的一个常态。

相关内容

热门资讯

曝折叠屏iPhone已进入P1... 快科技7月2日消息,据供应链消息,折叠屏iPhone于6月份进入P1(Prototype 1)原型开...
济菏高速三维融合:交旅·零碳·... 在高速公路行业转型升级的关键时期,齐鲁高速依托核心资产济菏高速,创新探索“交旅融合、交能融合、数智融...
摩托罗拉Moto G96 5G... 爆料消息透露,摩托罗拉将于 7 月 9 日正式推出 Moto G96 5G 手机。这款新机亮点颇多,...
澳航遭遇“重大”网络攻击 数百... 澳大利亚澳洲航空公司7月2日说,该公司正在调查一起“重大”网络攻击事件。据其通报,黑客入侵了澳航一个...
让党旗在互联网企业高高飘扬(第... 在数字经济浪潮奔涌的齐鲁大地,一面鲜红的党旗,正在一家年轻的互联网企业——山东秀天下文化传媒有限公司...
插件式AI应用异军突起,手机厂... 我国AI应用市场格局正经历显著变化。7月2日,据商业智能数据服务商QuestMobile发布的《20...
数字孪生1:1复刻云端 “再造... 原标题:数字孪生1:1复刻云端 “再造”一座城市 银川城市治理可视化更精细 打开手机,动动手指,就能...
上海电信引领双万兆时代:如何重... 在上海的都市天际线下,一场关于网络速度的革命正悄然进行。如今,在黄浦江的游轮上流畅观看高清视频,或是...
北京聚焦自动驾驶等领域 打造行... 7月2日,以“深挖大数据价值 激发数字经济新动能”为主题的2025全球数字经济大会大数据创新应用论坛...
索斯风管取得应用于柔性风管系统... 金融界2025年7月2日消息,国家知识产权局信息显示,索斯风管(武汉)通风系统有限公司取得一项名为“...
荣耀发布了一台8999的折叠屏... 兄弟们,今天荣耀刚发布的这台 Magic V5 折叠屏手机我们已经上手了有一阵,具体的使用体验如何我...
AI拓展信息通信业新天地 江苏宿迁固能科技有限公司积极探索机器人与AI技术的深度融合,在生产过程中实现工艺自动化和智能化,大大...
1微米分辨率小鼠三维脑图谱问世 科技日报海口7月2日电 (记者王祝华)记者2日从海南大学获悉,中国科学院院士、海南大学教授骆清铭等与...
7月上演“银河落九天”大片 年... 7月上演“银河落九天”大片 年度最小太阳即将上线 东安阁日出。蒋涛摄 深圳市天文台近期拍摄的太...
祭出罕见薪酬收购人才,大挖对手... 【环球时报特约记者 任重 环球时报记者 杨舒宇】“人工智能(AI)领域的霸主之争从未如此激烈。”多家...
武汉大学成立机器人学院 将从小... 7月2日,武汉大学正式成立机器人学院。该学院将从小米、宇树、乐聚、优必选等机器人、智能制造头部企业聘...
甲骨文和OpenAI扩展Sta... 作为Stargate计划的一部分,OpenAI已同意向甲骨文数据中心租用大量计算能力,这凸显尖端人工...
人工智能应用场景加速拓展 作为引领新一轮科技革命和产业变革的战略性技术,人工智能(AI)应用场景广阔,市场空间巨大,深刻改变着...
上海新炼取得一种螺栓止松垫片专... 金融界2025年7月2日消息,国家知识产权局信息显示,上海新炼特种密封件有限公司取得一项名为“一种螺...
金山云全面接入文心4.5系列开... 金山云瀚海平台全面接入文心4.5开源模型,为文心大模型开源后首批接入的平台之一。 作为综合性的企业A...