以AI对抗AI!蚂蚁集团王维强详解大模型安全防御解决方案
创始人
2024-01-08 13:12:24
0

原标题:以AI对抗AI!蚂蚁集团王维强详解大模型安全防御解决方案

大模型的出现为AI行业带来冲击,既涌现出无限创造力与想象力,或许也会带来不可控、滥用的种种风险,如何统筹大模型的发展和安全,已引发行业内外的广泛关注。12月19日,南方都市报、南都大数据研究院联合琶洲实验室、光明实验室在广州举办“势起AI 智启新界”大模型创新应用与安全治理大会,蚂蚁集团安全实验室首席科学家、可信AI负责人王维强围绕“大模型安全的紧迫性和实践”发表主旨演讲。

他表示,大模型安全既要“快”也要“慢”,大模型安全防御方面要“快”,要能快速检测、查杀病毒,确保服务无毒害;在大模型安全可信方面要“慢”,要能长远地、体系化地保证整个系统环境的可控、可信。

蚂蚁集团安全实验室首席科学家、可信AI负责人王维强围绕“大模型安全的紧迫性和实践”发表主旨演讲。

新AI时代 新平台责任

“大模型的能力在提升,其使用门槛在降低,越来越多的普通老百姓可以接触到大模型,可能会带来一些滥用的问题,这相当于打开了一个魔盒。”王维强讲道。

新AI时代,信息真实性和新型风险亟待解决,也迎来了新的平台责任。王维强指出,过去的传统内容风险防控中,责任主体是用户和发布平台,在当下和未来的AIGC内容风险防控中,责任主体是大模型厂商和服务平台,在内容安全风险防控、模型隐私泄露防控、伦理和价值观向善、AI技术生成标识等方面都面临新的安全挑战问题。他认为,平台和大模型厂商需要引导AI向善、安全、不作恶。

大模型风险从何而来?王维强从大模型生成流程解释了AI安全问题的本源。一个可能的路径是存在在预训练大规模数据中,如果数据本身“有毒”,带有不良伦理价值观、存在偏见和歧视,其中存在商业机密、版权等隐私问题,或有谣言虚假信息等质量问题,那么大模型输出的内容就存在安全问题。另一个渠道是行业领域微调的过程,这里可能涉及诱导错误的人类对齐、错误价值导向等恶意标注;不可靠的低质量标准和缺少多样性的固化标注,这些标注也会给大模型带来问题。同时,要注意模型本身的可控问题,模型的可靠性、稳定性、鲁棒性等都需要进行检验。此外,还有大模型在实际场景中应用的安全问题,在实际的使用过程中,不同用户群体的交互和应用都需要谨慎评估,尤其是金融、医疗等领域对模型输出的正确性要求极高,如果应用不当,一石就容易激起千层浪。

以AI技术为大模型安全护航

诸多问题当前,该如何为大模型保驾护航?行业的共识是使用安全、可靠、可控的AI技术,来对抗AI风险,“以魔法打败魔法”。

在王维强看来,保障大模型安全性主要有三个关键环节,一是从训练数据源头消毒;二是做护栏加固防止推理过程黑盒的不可控问题;三是面对外部诱导的对抗攻击。

“大模型数据其实去毒和不去毒,本身并不是0和1的问题,主要是要可控,世界的暗面也是世界的一面。”王维强说,“在研究大模型研发过程中我们做了很多尝试,如果完全没有任何负面数据,训练出来的大模型可能就会成为一个‘傻白甜’,碰到有挑战的安全问题,就很容易掉到陷阱里面,所以还得把‘消毒’和‘加毒’很好地融合起来。”由此,蚂蚁安全实验室形成了一套消毒技术方案,初步实现每天100亿的风险初筛、精细化标注的能力。

据他介绍,为解决大模型生成可控问题,蚂蚁安全实验室从四个方面进行了初步探索。一是通过SFT、RLHF/RRHF、RLAIF等技术和高质量标注做人类对齐;二是图像方面做了风险抑制,进行可控调试,让大模型生成的图像具备正向的价值观;同时,大模型外挂千万级安全知识库生成和检索,生产有效率达到60%;此外,还对疑难风险内容进行补充,提升模型的风险认知能力。

这些技术方案集成,形成了被称为“蚁天鉴”的大模型安全一体化解决方案,包含大模型安全检测平台“蚁鉴2.0”和大模型风险防御平台“天鉴”两大产品,目前这两项产品已对外开放。其中“蚁鉴2.0”可以诊疗检测、定位问题,它相当于站在“黑产”角度,通过智能攻击对抗技术,自动生成数百万的诱导性问题,对生成式大模型进行诱导式问答,并对大模型的回答实时、自动化检测计算,24小时不眠不休“找茬”大模型存在的弱点和安全问题。而“天鉴”可以进行“防治”,防患于未然,帮助大模型挡住外界的恶意提问,同时对生成的回答内容进行风险过滤,保障大模型上线后从用户输入到生成输出的整体安全防御。

演讲最后,王维强表示,在大模型安全系统建设中,仍需要花很多时间和行业做共建,“可信AI是数字时代抵御风险的核心能力,蚂蚁集团希望与全社会一起持续推进可信AI,共治AI风险。”

出品:南都大数据研究院

监制:戎明昌 刘江涛

策划:王卫国 邹莹

统筹:凌慧珊 关健明

采写:南都记者 熊润淼

相关内容

热门资讯

AI智能体应用加速落地 今年以来,从中央到地方,对培育具身智能、发展智能机器人等作出一系列部署。伴随着技术日新月异,机器人走...
“市区合作”共建高地 “人工智... 东方网记者刘轶琳5月15日报道:今天上午,“人工智能+医疗健康”推进会暨“智汇医学 AI无界”首届上...
原创 永... 永济市工科局开展“工科聚力 智创未来”融合创新与协作主题活动。 黄河新闻网运城讯(记者吉祥)为深入...
全球嘉宾纷纷点赞“湖北智慧” 原标题:世界数字教育大会在汉开幕 荆楚高校秀出看家本领 全球嘉宾纷纷点赞“湖北智慧” 5月14日上...
人工智能前沿挑大梁,上海这群年... 上海人工智能实验室搭建“学术之梯”“管理之梯”“产业之梯” AI前沿挑大梁,这群年轻人不到30岁 ■...
马斯克称机器人数量最终将达到数... 特斯拉CEO埃隆·马斯克周二在利雅得举行的沙特-美国投资论坛上表示,他预测人形机器人的数量最终将达到...
1箭12星 “四川造”全球首个... ●最高单星算力达744TOPS(每秒744万亿次计算),整体具备5POPS(每秒5千万亿次计算)在轨...
何氏眼科:眼健康全产业链生态获... 中证报中证网讯(王珞)日前,2025未来医疗医药100强展会(2025VBEF)在苏州举行。活动发布...
一个提示攻破所有模型,Open... 新智元报道 编辑:peter东 犀牛 【新智元导读】 多年来,生成式AI供应商一直向公众保证,大语...
深圳市科达利取得盖板组件及电池... 金融界2025年5月15日消息,国家知识产权局信息显示,深圳市科达利实业股份有限公司取得一项名为“盖...
原创 千... 你可能以为千元机只是给爸妈用的“接电话神器”,或者学生党的“临时战备机”,但红米Turbo4 Pro...
“人工智能+”,山西怎么“+” “人工智能是年轻的事业,也是年轻人的事业”“推动我国人工智能朝着有益、安全、公平方向健康有序发展”…...
华为将推出鸿蒙折叠电脑 5月15日,第一财经获悉,在5月19日nova 14系列及鸿蒙电脑新品发布会上,华为将推出鸿蒙折叠电...
华为发布会将推出鸿蒙折叠电脑,... 5月15日,第一财经获悉,在5月19日nova 14系列及鸿蒙电脑新品发布会上,华为将推出鸿蒙折叠电...
香港故宫文博馆推出“‘纹’以载... 5月14日,在香港故宫文博馆,参观者在沉浸式体验数字化的故宫建筑、陶瓷、织绣等文物上的传统纹样。 5...
竹芒科技申请机器人送货专利,避... 金融界2025年5月15日消息,国家知识产权局信息显示,深圳竹芒科技有限公司申请一项名为“机器人送货...
博白:人工智能进校园 点燃学生... 5月12日,博白县人工智能社科普及进校园活动走进博白镇幼儿园,活动通过为小朋友展现科学原理,培育他们...
含硼聚乙烯板:科研机构的高效屏... 在现代科研领域,尤其是涉及核能、放射性物质等领域的研究中,中子屏蔽材料的重要性不言而喻。含硼聚乙烯板...
全车塑料,没有音响,这就是美国... 都说 3 万块的宏光 MINIEV 是给人民造车,那现在美国人民也有自己的宏光 MINIEV 了。 ...
蔡司智能玻璃新突破:车窗变身高... 蔡司公司在中国首次公开展示了其革命性的车辆智能玻璃方案,这一创新技术在近期举行的2025上海国际车展...