中关村论坛直击：首届生成式AI安全大赛启动，主拼攻检防_资讯

创始人

2024-04-27 08:50:11

0次

大模型正在成为驱动新质生产力发展的新动能、人类探索未知的新工具，但也带来了前所未有的安全风险。如何提升大模型的安全能力？用魔法打败魔法，或许是一种解决问题的思路。

4月25日-29日，2024年中关村论坛年会在北京举行。在26日举办的“数据安全治理与发展”论坛上，首届生成式人工智能安全大赛正式启动。

大赛由北京市互联网信息办公室和中国科学院网络安全和信息化领导小组办公室共同指导，中国科学院信息工程研究所和信息内容安全国家工程研究中心共同主办。

生成式人工智能安全大赛在中关村论坛启动。图据主办方。

论坛期间，中国科学院信息工程研究所研究员虎嵩林在接受南都等媒体采访时，介绍了这一大赛的初衷。他说，大模型能力的通用性、潜在的主体地位以及应用的深度与广度，进一步放大了其危害程度。

去年5月，一份警惕AI风险的公开信，呼吁将AI风险与流行病、核武器，并列为全球优先事项。这份公开信仅有22字，获得了Open AI创始人萨姆·阿尔特曼等300多人联名签署。

虎嵩林还注意到，2023年底《自然》杂志预测的2024年重大科学事件中，包括GPT5的发布以及联合国人工智能高级别咨询机构将发布的AI监管相关报告，这反映了全球对协调人工智能发展与安全的重大关切。

据南都记者了解，在数据方面，训练数据固有偏见可能导致模型产生偏见内容，而海量训练数据也扩大了数据安全和隐私保护风险。在算法方面，算法模型生成特性及安全漏洞会引发“幻觉”或虚假信息、模型遭受攻击等风险。

这些安全风险怎么防？虎嵩林表示，生成式大模型特有的预训练、微调、上下文、提示、思维链（Chain of Thought，COT）等新的学习范式，使其安全具有与传统AI安全不同的许多新特点，这也制约了传统安全方法、经验、工具在大模型安全领域发挥效能。

也就说，“原有的一些AI安全技术，实际上不太适用于大模型。”虎嵩林提到，不管是在理论还是技术上，大模型安全面临许多仍待解决的难题。比如，人们对大模型“智能涌现”的原理所知甚少，对上下文学习、提示学习、思维链等能力的内在机理还严重缺乏认知。

尽管如此，“在现有的技术条件下，我们仍需要持续探索——这也是我们研制Galexy（星河）大模型安全测评平台的原因，也是举办这次大赛的初衷。”虎嵩林表示，希望通过“攻、检、防”对抗式发展的方式，促进不断发现漏洞、自动识别和安全防护能力的提升，为大模型技术发展保驾护航。

南都记者从现场了解到，此次大赛以“共筑安全星河，护航AI发展”为主题，依托中国科学院信息工程研究所Galaxy（星河）生成式人工智能安全风险测评平台为比赛环境。该平台提出“以攻促防，攻防相长”的大模型安全测评技术体系，研制了一套大模型自我博弈与安全能力循环升级工具集。

据主办方介绍，大赛设置安全攻击、安全检测、对齐防护三大赛道，希望能够吸引广大企业、行业大模型厂商、用户防的积极参与，吸引高校和科研院所的高水平研究团队参赛，以聚集国内优势力量，构建攻、检、防三位一体的竞赛与协同发展模式，在对抗循环中不断提升生成式人工智能内生安全能力。

为何将安全检测设为三大赛道之一？虎嵩林告诉南都记者，大模型训练需要庞大且高质量的数据，依靠现有的安全检测能力，要从中100%过滤有害或涉及个人隐私等数据，仍需打个问号。此外，大模型里的有害信息是否都应该剔除，也值得商榷。

虎嵩林举例，很多侦探小说含有犯罪情节，这部分内容在用于大模型训练时如果被全部剔除，那么对作品本身是不合理的；而且如果大模型只见过正面的例子而不知反例，也会使其能力受到限制。为此，当前需要提升安全检测和防护能力，包括价值对齐、检索增强、提供知识库等等。

不仅仅在数据阶段，虎嵩林对南都记者表示，从预训练、微调到人类价值观对齐，一直到最后的推理阶段，实际上都需要对大模型安全进行成体系的干预。单单靠数据阶段的重视，无法解决100%的安全问题。

采写：南都记者李玲吕虹莫倩如陈秋圆发自北京