原创 Meta的Llama 3是合成数据训练?数据荒了解一下
创始人
2024-07-27 04:41:20
0

如今一场席卷人工智能圈的“石油危机”已经出现,几乎每一家AI厂商都在竭力寻求新的语料来源,但再多的数据似乎也填不满AI大模型的胃口。更何况越来越多的内容平台意识到了手中数据的价值,纷纷开始敝帚自珍。为此,“合成数据”也成为了整个AI行业探索的新方向。

只不过在相当长的一段时间里,合成数据是否可堪一用都是未知的,直到日前Meta的AI研究员Thomas Scialom博士给出了这个问题的答案。据他透露,Meta的Llama 3开源大模型在训练中并没有依赖任何人类编写的答案,而是完全基于Llama 2生成的合成数据。

Thomas Scialom在介绍Llama 3的训练细节时,提及了合成数据在大模型不同场景的应用,诸如代码执行的反馈、编程语言的翻译、文档的反向翻译,长文本的问答、长文档摘要、代码库推理等领域都大量使用了合成数据。而这,也解释了Meta在今年春季推出的Llama 3大模型规模是如何超过4000亿参数,并实现七倍于Llama 2的训练数据量。

合成数据一般指的是通过算法模仿真实世界数据的特征产出新的数据,那么这种“左脚踩右脚上天”的操作又是如何实现呢?由Meta和微软的相关团队分别公布的两篇论文,就能为我们揭示使用合成数据训练大模型的秘密。其中,Meta将使用合成数据进行训练的大模型称为“自我奖励语言模型”,也就是大模型本身生成训练数据,并评估这些数据的质量,然后用这些数据来自己训练自己。

自我奖励语言模型实际上就是所谓AI反馈强化学习(RLAIF)的应用,Meta的具体操作是先基于少量人工标注数据预训练一个初始模型,然后再让初始模型基于问题生成多个候选回复,并使用吴恩达博士提出的LLM-as-a-Judge方式,让大语言模型对自己生成的回复打分,并根据打分形成新的训练数据,从而继续训练模型。

在这一过程中,最重要的就是让大模型能够按照示例生成和评估新指令,再添加到自己的训练集中。由于计算机使用的二进制语言和人类语言不同,研究人员需要将人类语言转换成计算机能理解的形式,这就是所谓的“文本嵌入”。比如微软的研究团队就通过定义一系列文本嵌入任务,并为这些任务设计了特定的提示,来指导大语言模型生成特定数据。

研究人员创建的特定提示会包括两个关键要素,即问题和角色,然后再进行排列组合。比如司机和数学问题结合,就可以生成中小学阶段的题目,引导大语言模型以相应的视角合成数据,这就是自我奖励语言模型的秘密。紧接着研究人员只需将生成的数据进行清洗和格式化,去除重复内容、修正格式错误,以确保它们符合训练的需要。

合成数据的优势,是能够在数学和物理意义上反映真实数据的属性,并且由于无需人工标注,所以也大幅减少了因数据采集流转流程以及人为标准不一致所带来的人为误差。那么问题就来了,既然合成数据可以成为解决训练数据稀缺以及衍生而来的高成本问题,为什么大量AI厂商还是倾向于挖掘或购买人类生成的数据呢?

其中最关键的原因,就是尽管采用了精心设计的prompt和有监督训练,但大语言模型固有的偏差和幻觉等问题仍可能会给数据集引入噪声,而在错误的、有幻觉的或有偏见的合成数据基础上训练的大语言模型,会无法泛化到现实世界场景。建立在合成数据基础上的大语言模型需要避免被机器学习“污染”,而训练数据中合成数据的占比越大,自然语言理解能力就越不容易提升。

比如斯坦福教授Percy Liang就指出,合成数据缺乏珍贵的“人性”,以至于基于合成数据训练的大模型并不足以达到AGI。更为重要的是,合成数据可以用来验证或扩展人类已经的领域,却无法揭示初始数据集中不存在的领域,它的边界就是初始数据集的边界。

故而,Meta基于Llama 2生成的合成数据训练了Llama 3在理论上是有一定可能性的,只不过他们并没有告诉大家,这一过程到底花费了多少人力、多少时间。尽管合成数据确实会比真实数据更便宜,但剔除不合格的合成数据到底需要花费多少成本还是未知数。

如果合成数据真的在各方面都比真实数据便宜,即使顶着幻觉和AI伦理的问题,各大AI厂商也没道理继续盯着由人类生成的数据了。

相关内容

热门资讯

科技与文化共绽 上合峰会新闻中... 2025年上海合作组织峰会将于8月31日至9月1日在天津举行。这是中国第五次主办上合组织峰会,也是上...
英伟达推出GB10超级芯片 专... 在2023年Hot Chips大会上,英伟达的超级芯片架构引入了一种全新的加速工作负载编程模型,通过...
助推“与时间赛跑的药物”,浦东... 新型同位素药物由于兼具精准靶向、强力杀伤、有限损伤和诊疗一体等临床优势,被称为“与时间赛跑的药物”,...
镇平:科创筑梦激发青少年科学热... 8月23日,镇平县2025年“全国科普月”活动暨第一届大学生科创大赛水火箭发射竞赛启动,旨在激发青少...
推进“人工智能+”稳定发展 (来源:光明日报) 转自:光明日报   人工智能作为引领新一轮科技革命和产业变革的颠覆性技术,已成为...
全球3D数据稀缺,ROVR助力... 在人工智能的发展历程中,数据始终是推动技术进步的关键因素。十多年前,李飞飞在普林斯顿大学期间,敏锐地...
三大运营商全线布局卫星互联网赛... 根据“工信微报”微信公众号8月27日消息,工信部近日印发《关于优化业务准入促进卫星通信产业发展的指导...
探讨数据要素产权新路径!202... 8月27日,由贵州省安顺市人民政府主办,贵州省大数据发展管理局、贵州省社会科学院、中国电信贵州公司协...
多元群像激荡青春舞台,《披荆斩... 当一群舞象之年的青春面孔以一曲《开天》致敬古老的羌族传统文化,“00后”的新鲜力量正似一记龙拳“打开...
ChatGPT被控致美16岁少... 参考消息网8月28日报道 据美国消费者新闻与商业频道网站8月26日报道,在美国加州一个家庭提起诉讼,...
科学家发现一种能够逆转大脑衰老... 衰老对海马体(大脑中负责学习和记忆的区域)的影响尤为严重。如今,旧金山加州大学的研究人员发现了一种在...
长盈精密公布“一种插接件、US... 天眼查APP显示,近日,深圳市长盈精密技术股份有限公司申请的“一种插接件、USB插座及其制造方法”专...
消费创新、智能向善 看人工智能... 国务院日前印发的《关于深入实施“人工智能+”行动的意见》要求,加快实施“人工智能+”消费提质行动,拓...
百舸AI计算平台迎来5.0版本... 紫金财经8月28日消息 在2025百度云智大会上,百度智能云对AI计算基础设施进行了全面升级,正式发...
山东北辰公布“一种核电换热器用... 天眼查APP显示,近日,山东北辰机电设备股份有限公司申请的“一种核电换热器用横缝焊接装置”专利公布。...
脑机接口新技术助力精准识别肿瘤... 近日,中国科学院空天信息创新研究院(空天院)传感器技术全国重点实验室与哈尔滨医科大学附属第一医院(哈...
AI智取云计算 大模型打开了AI云的增长时间窗口,处在关键节点的云计算市场正经历着深刻的变化。 整体上看,云计算逐渐...
华为Mate XTs三折叠开启... 今天(8 月 28 日)上午,@华为终端 发布 Mate XTs 非凡大师三折叠手机的预热视频。视频...
韦伯望远镜揭秘:超大质量黑洞“... 近日,天文学界迎来了一项震撼人心的发现——詹姆斯·韦伯空间望远镜成功捕捉到了超大质量黑洞的“初生瞬间...
科学与健康|脑机接口新技术助力... 近日,中国科学院空天信息创新研究院(空天院)传感器技术全国重点实验室与哈尔滨医科大学附属第一医院(哈...