微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源
创始人
2025-02-18 18:22:28
0

新智元报道

编辑:LRST

【新智元导读】RedStone是一个高效构建大规模指定领域数据的处理管道,通过优化数据处理流程,从Common Crawl中提取了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等数据集,在多项任务中超越了现有开源数据集,显著提升了模型性能。

过去几年,大型语言模型(LLMs)已经成为人工智能研究的一个关键领域,从大规模的自然语言数据中学习,使其能够以极高的准确率执行各种与语言相关的任务。

得益于模型扩展性方面的进展,研究人员能够创建具有前所未有复杂度的模型。

当前的研究趋势是致力于构建更大、更复杂的模型,具有数百/数千亿个参数,但大型语言模型的训练需要海量的训练数据,尤其随着模型参数量的上升,对于优质数据数量的要求也将进一步加大,优质数据量的缺乏极大限制了模型能力的进一步增长。

RedStone是一个高效构建大规模指定领域数据的处理管道,结合了目前主流的数据处理工具以及自定义的处理模块,进一步优化发展而来。

通过RedStone,研究人员构建了包括RedStone-Web、RedStone-Code、RedStone-Math以及RedStone-QA等多个数据集,均在各类任务中超越了目前开源的数据集,能够为大模型的预训练以及后训练提供坚实的数据支撑。

论文地址:https://arxiv.org/abs/2412.03398

仓库链接:https://github.com/microsoft/RedStone

受限于公司的开源策略,RedStone仅开源了数据索引以及所有处理代码以供社区复现。不过随着受社区关注度的逐渐提高,目前已有社区复现版本的RedStone,依据github中项目描述,该复现的数据集在规模和质量上与RedStone内部数据类似。

图1 RedStone概览图

如图1所示,RedStone以Common Crawl为原始数据源,旨在使用同一的数据处理框架清洗各类目标数据。

RedStone-Web为大规模通用的预训练数据,为模型注入全世界通用知识。

RedStone-Code和RedStone-Math为网络中的各类代码/数学相关数据,与其他开源的code、math类型数据不同的是,网页中的code/math天然具有纯文本和code/math交错的形式,例如代码教程、题目讲解等等。

因此模型可以像人类一样借助code/math上下文中的纯文本来进一步深刻理解code/math。此外RedStone还构建了RedStone-QA,这是一个大规模的QA数据集,最简单直接的方式为模型注入各类知识。

对于RedStone-Web,RedStone认为对于高质量数据的定义至关重要,早期社区认为文本的流畅度等指标代表了数据的质量,近期越来越多研究人员认为含有教育意义的数据代表了高质量数据。

RedStone则是在其中找了一个平衡点,包含知识且文本流畅的,被定义为高质量数据。其中知识可以是任何形式的,只要其中包含的内容可以让模型对世界的认识得到进一步发展。

因此在RedStone-web的构建上,主要处理框架参考了refinedweb和redpajama,但删除了原有的过滤模块,使用新构建的过滤系统,最终获得了总共3.1T token的高质量通用预训练数据。各个其各个步骤以及对应的数据量如图2所示。

图2 RedStone-Web处理步骤

除了RedStone-Web这一通用领域的高质量数据集以外,RedStone认为网络是一个蕴含丰富宝藏的矿藏之地,足以挖掘各类在通用领域之外被遗漏的各类数据(例如对于RedStone-Web而言有些页面整体质量不高,但其中的某个片段在特定领域属于高质量),随后构建了RedStone-Code、RedStone-Math以及RedStone-QA等专有数据。

其核心仍然是过滤,RedStone提出了多层过滤系统,分别对应不同的数据规模。例如采用fasftext对所有网页进行统一快速过滤,随后使用更高性能模型精细过滤以及片段抽取。论文指出RedStone支持构建其他类型的专有数据,只需自定义好过滤器即可。通用领域和特定领域的数据构建代码都已开源。

图3展示了最终各个数据集的规模。

图3 数据集规模

为了验证各个数据集的质量,作者分别使用这些数据对模型进行训练,并与开源数据集比较。如图4所示。RedStone-Web在大部分任务中都显著高于其他所有开源数据集,并且在平均分指标上得到了第一的成绩。这说明RedStone-Web可以显著提升模型性能,并且使得模型的训练更为高效。

图4 RedStone-Web与开源预训练数据集的比较

图5 RedStone-Code结果展示

考虑到RedStone-Code是来源于网页,数据是文本与代码交错的形式,目前社区中并无此类数据集开源,因此在RedStone-Web基础上增加RedStone-Code进行了实验。

可以看到在并没有显示添加例如github等纯代码的数据情况下,所有数据均只来自网页,RedStone-Code同样可以显著提升模型在代码方面的能力,说明RedStone-Code能够给模型注入足够的代码知识,对于代码数据已经被耗尽的社区来说,这是一个能显著进一步扩展代码领域数据的数据集。

图6 RedStone-Web与开源数据比较

图6展示了RedStone-Math与社区开源数据OpenWebMath的比较,结果显示在同样的设置和步数下,RedStone-Math在得分上高于OpenWebMath,尽管OpenWebMath同样来源于网络,但得益于构建了更好的过滤器,最终能够得到更高的数据质量。

图7 RedStone-QA与开源数据比较

在没有依赖更多的QA数据下,只从网络中爬取QA对,RedStone-QA就可以让模型相对与其他开源QA数据集得到显著的提升(例如MMLU提升了大约10个点),这更说明了网络是一个蕴含丰富宝藏的矿藏之地。

除了以上这些领域外,RedStone的使用几乎不受领域的限制,任何人都可以使用开源代码对特定领域进行爬取。

通过图4至图7的结果可以看到,RedStone构建的数据在LLM预训练以及后训练中展现了有前景的能力,使其成为构建LLM各类训练数据的多功能、实用pipeline。

参考资料:

https://arxiv.org/abs/2412.03398

相关内容

热门资讯

马斯克带头加班 通宵在办公室搭... 快科技7月1日消息,近日,马斯克在推文中表示,他正通宵达旦地开发Grok 4,并称“进展良好”。 不...
马斯克公布脑机接口重大成果,未... 在硅谷科技圈的聚光灯下,埃隆·马斯克(Elon Musk)再次以一场震撼全球的发布会,将人类对脑机接...
描绘智能未来新图景——聚焦福州... 坐上自动驾驶网约车,车外风景宜人,车速不疾不徐;车内无需人工操作,智慧大屏清晰显示车辆情况和路况信息...
原创 南... 这几年,中国在南海默默干了一件大事。 把一块块不起眼的礁石,变成了真正的海上岛屿。 修机场、建码头、...
新一代智能船舶“新红专”轮抵琼... 海口7月1日电(记者 王子谦)7月1日上午,全球首艘智能研究与教学实训两用船“新红专”轮靠泊海口新海...
华为申请一种数据处理方法及其装... 金融界2025年7月1日消息,国家知识产权局信息显示,华为技术有限公司申请一项名为“一种数据处理方法...
上海雍邑光电取得光斑角度测量装... 金融界2025年7月1日消息,国家知识产权局信息显示,上海雍邑光电科技有限公司取得一项名为“光斑角度...
原创 力... 在力诺药包三期中硼硅模制瓶车间里,一炉三线的全自动、智能化生产线正在生产模制瓶产品,包括容量5-50...
浙江赛灵特取得水力驱动装置及水... 金融界2025年7月1日消息,国家知识产权局信息显示,浙江赛灵特泵业科技有限公司取得一项名为“水力驱...
展讯半导体申请通信方法相关专利... 金融界2025年7月1日消息,国家知识产权局信息显示,展讯半导体(南京)有限公司申请一项名为“通信方...
大折叠主力机时代来临了!viv... 自大折叠诞生以来,两个重要的问题就如同达摩克利斯之剑悬于大折疊之上:如何让折叠屏更轻薄,如何让折叠屏...
格力朱磊:中国制造全球 85%... IT之家 6 月 29 日消息,据凤凰网财经报道,6 月 28-29 日,“2025 中国企业出海高...
Meta重组其人工智能部门,成... 通信世界网消息(CWW)据外媒报道,MetaCEO马克・扎克伯格宣布对公司人工智能部门进行重组,成立...
原创 无... 无人机拍摄的影像从横屏(水平方向)改为竖屏(垂直方向)是否会损失像素,这个问题涉及到多个方面的考量,...
“涪陵造”新能源变压器接入新疆... 近日,新疆喀什疏附80万千瓦光伏发电项目实现全容量并网发电。涪陵高新技术企业重庆南瑞博瑞变压器有限公...
退休是不可能的!董明珠承诺将为... 日前,格力电器 2024 年度股东大会于珠海顺利召开。会上格力电器董事长董明珠亲临现场,公司董事、总...
雄安未来之城场景汇丨融合创新,... 92项前沿技术亮相低空交通创新技术应用大赛决赛 融合创新,低空交通加速“飞”进生活 6月29日,第...
我科学家揭示 阿尔茨海默病早期... 6月26日,记者从中国科学院昆明动物研究所获悉,该所研究员姚永刚、张登峰带领团队,解析了阿尔茨海默病...
泉美智能取得智能仓储细胞培养箱... 金融界2025年7月1日消息,国家知识产权局信息显示,泉美智能科技(山东)有限公司取得一项名为“一种...
宁德时代在南宁、苏州成立新能源... 天眼查App显示,近日,时代骐骥新能源科技(南宁)有限公司、时代骐骥新能源科技(苏州)有限公司成立,...