用AI训练AI,可能越练越“傻”
创始人
2024-07-26 14:01:23
0

新华社北京7月25日电 对于人工智能(AI)大语言模型来说,通常给予的训练数据越多,模型就会越“聪明”。但英国《自然》杂志新发表的一项关于大模型的研究显示,如果只用AI生成的数据来训练大模型,会使模型性能下降、越练越“傻”。

英国牛津大学、剑桥大学等机构研究人员发现,如果在训练大模型时,只用AI生成的内容,会导致大模型出现不可逆的缺陷,逐渐忘记真实数据的分布,这被称为“模型崩溃”。

研究人员首先使用大语言模型创建类似维基百科词条的文本,然后利用这个内容来训练该模型的新版本,并反复使用前代模型生成的文本训练更新的版本。随着AI生成的信息“污染”训练集,模型的输出逐渐失去意义。在模型的第九次迭代中,它完成了一篇关于英国教堂塔楼的文章,其中一段文字却在讲述野兔尾巴的多种颜色。

研究发现,导致“模型崩溃”的重要原因是,由于模型只能从其训练数据中采样,一些在第一代数据中本就低频出现的词汇,在每次迭代后出现的频率变得更低,而一些常见词汇出现的频率则逐渐增加。

这种变化的结果就是,模型逐渐无法正确模拟真实世界的复杂性。随着时间推移,这种错误会在迭代中被层层累积、逐渐放大,最终导致“模型崩溃”。这有点像生物学中“近亲繁殖”会导致后代缺陷,如果不能保证基因库的多样性,最终会导致一个物种的崩溃。

研究人员还发现,由于训练数据被“污染”而导致“模型崩溃”的情况不止发生在大语言模型中,高斯混合模型、图片生成器等也可能出现类似情况。

不过,应对“模型崩溃”并非束手无策。研究人员发现,如果能在模型微调过程中保留10%左右的真实数据,崩溃就会发生得更缓慢。还可使用水印技术,将AI生成的数据与真实数据区分开来,这需要大型科技公司的协作。此外,在AI生成的文本重新进入数据池之前,可由人类先筛选过滤。

相关内容

热门资讯

广州银发经济领域企业突破1.8... 中新网广州8月22日电 (记者 蔡敏婕)第九届中国(广州)国际养老健康产业博览会(以下简称“广州老博...
DeepSeek V3.1升级... 在科技界的翘首以盼中,虽然备受瞩目的R2模型未能如期亮相,但DeepSeek团队却适时推出了其最新力...
智能化改造+数字化转型,深圳坪... 深圳新闻网2025年8月22日讯(记者 张金)携带公司“绝招”亮相中博会,“收获超出想象”;联手数据...
人类是被圈养的动物?太阳系有四... 在太阳系的形成和演化理论中,太阳系终有一天会灭亡。科学家预测,大约50亿万年后,现在表面温度达到55...
AI催化智能制造市场百亿扩容,... 近日,中邮证券发布研报称AI从商业和产业价值两方面赋能制造业,25 年人工智能制造业应用在我国市场规...
俄发布月球探测新时间表:“月球... 当地时间8月22日,俄罗斯科学院院长克拉斯尼科夫表示,俄罗斯下一次月球探测任务将于2028年实施,届...
国赛摘金!安徽学子在全国青少年... 8月14日至18日,第九届全国青少年无人机大赛在重庆火热举行。赛事由中国航空学会主办,吸引了全国近6...
【人工智能】2025年人工智能... 项目简介 人工智能应用工程师课程是一套集专业化知识架构、科学化培养路径、系统化考核标准于一体的高端...
什么是ai?什么是人工智能? AI智能不再只是科幻小说中的概念,它正在以肉眼可见的速度融入我们的日常,改变着我们工作与生活的方式。...
什么?你也是来收购Chrome... 不管Chrome同不同意,想要接手这个全球第一市场份额浏览器(而且遥遥领先后面几位)的候选者们,早已...
我国首颗全极化商用SAR卫星发... 8月19日,由中科卫星科技集团有限公司联合多家科研单位共同研制的全国首颗具备全极化业务化观测能力的商...
原创 摆... 可以说是众所周知了,芯片设计是离不开EDA软件的。 并且现在的EDA,已经不只是仅仅画个图,设计芯片...
青岛人工智能场景创新联盟成立 ... 8月21日上午,以“场景驱动 智链青岛”为主题的青岛市人工智能场景创新联盟成立暨首批标杆场景发布会在...
2025数博会 | 360将携... 当前,数字经济加速发展,安全与AI技术成为驱动产业升级的关键力量。2025中国国际大数据产业博览会(...
美的集团获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示美的集团(000333)新获得一项实用新型专利授权,专利名为“...
爱立信CEO鲍毅康:中国5G ... IT之家 8 月 22 日消息,爱立信 CEO 鲍毅康(Börje Ekholm)昨天接受了科技媒体...
维谛取得浸没式液冷机柜专利,提... 金融界2025年8月22日消息,国家知识产权局信息显示,维谛公司取得一项名为“浸没式液冷机柜”的专利...
标准北大荒 稳固大粮仓 北大荒农业股份庆丰分公司水稻田。栾洪磊摄 智慧播种驾驶舱。张博文摄 精细化农机具管理,打造智能化...
美国数据中心公司表示,美国、阿... 美国一家数据中心公司的报告发现,阿联酋和沙特阿拉伯位列全球人工智能超级大国前三名。 在这份由德克萨斯...
瑞莱光学取得光学镜片检测送料机... 金融界2025年8月22日消息,国家知识产权局信息显示,湖北瑞莱光学有限责任公司取得一项名为“一种光...