国家安全部近日发文提示,人工智能的训练数据良莠不齐,其中不乏虚假信息、虚构内容和偏见性观点,造成数据源污染,给人工智能安全带来新的挑战。
数据是人工智能发展的基础。人工智能模型通过分析和处理大量的训练数据来理解世界,进而驱动内容生产和智能决策。高质量的数据能提升人工智能模型的准确性和可靠性,但数据如果被污染,则会扭曲人工智能模型的认知,导致决策失误,甚至诱发有害输出。有研究显示,当训练数据集中有0.01%的虚假文本时,模型输出的有害内容会增加11.2%。
当下,互联网作为人工智能模型的重要“语料库”,各类信息鱼龙混杂,准确性难以保证,即使模型训练时尽力过滤可疑数据,也很难完全避免虚假或有害内容的渗透。
如今,从美食推荐到自动驾驶,从金融决策到医疗诊断,人工智能已深度融入人们生活。每一次因数据污染作出的误判,都可能引起连锁反应,带来不可估量的损失。比如,在自动驾驶领域,误判路况造成交通事故;在金融领域,炮制虚假信息引发股价异常波动。
由此可见,防范数据污染不仅是人工智能领域的技术挑战,更关乎社会信任和公共安全。当前,《生成式人工智能服务管理暂行办法》已将人工智能训练数据纳入监管,各方也在探索多种方法识别和抵御恶意数据的影响。但随着数据污染日益隐蔽,要为人工智能构筑起更强大的“免疫系统”,不断升级技术手段,建立更严格的数据筛选验证机制,从源头过滤掉虚假、错误以及带有偏见性的可疑内容。同时,完善动态监测和反馈机制,对模型的异常行为及时纠偏,定期依据法规标准清洗修复受污数据,筑牢人工智能数据底座。
来源:经济日报