小红书开源首个大模型dots.llm1,11万亿非合成训练数据带来惊艳表现
创始人
2025-06-10 05:41:24
0
🤖 由 文心大模型 生成的文章摘要

上文介绍了社交平台小红书开源的大模型do

社交平台小红书,在大模型领域迈出了重要一步,开源了其首个大模型——dots.llm1。这一举措在业内引起了广泛关注,为大模型的发展注入了新的活力。

dots.llm1是一个拥有1420亿参数的专家混合模型(MoE)。与其他模型不同的是,它在推理过程中仅激活140亿参数。这种独特的设计使得模型在保持高性能的同时,能够大幅度降低训练和推理成本,为模型的广泛应用提供了更经济高效的解决方案。

dots.llm1最大的特色之一,是使用了11.2万亿token的非合成高质量训练数据。在现阶段的开源大模型中,如此大规模的非合成数据非常罕见。小红书凭借自身庞大的语料库,为模型训练提供了丰富而优质的数据资源。这些数据来源于真实的网络内容,经过精心筛选和处理,确保了数据的高质量和多样性

得益于高质量的训练数据,在中文测试中,dots.llm1展现出了强大的性能。它以91.3的平均分,超过了DeepSeek开源的V2、V3,以及阿里开源的Qwen2.532B和72B。这一成绩充分证明了dots.llm1在中文语言理解和处理方面的卓越能力。无论是语义理解、文本生成还是知识问答,dots.llm1都能给出高质量的回答。

在模型架构方面,dots.llm1使用了单向解码器Transformer架构,并将前馈网络替换为MoE。MoE将模型分为多个专家网络,每个专家网络专注于输入数据的不同方面。在推理过程中,并不激活所有的专家网络,而是根据输入标记的特性,动态地选择一小部分专家网络进行计算。这种稀疏激活的方式极大减少了算力的需求,同时保持了模型的高性能。具体来说,dots.llm1的MoE由128个路由专家和2个共享专家组成。在每个输入标记的处理过程中,dots.llm1会通过一个路由机制选择出6个最相关的专家网络,加上2个共享专家,总共激活8个专家网络。

此外,dots.llm1采用了经典的多头注意力机制(MHA),这是一种广泛应用于Transformer架构中的注意力机制。通过引入RMSNorm,dots.llm1能够更好地控制注意力机制的输出,从而提高模型的稳定性和性能。在训练过程中,dots.llm1还采用了AdamW优化器,进一步提高模型的性能和效率。

在数据处理上,dots.llm1构建了一套三级数据处理流水线,从杂乱无章的原始网页数据中筛选出高质量的语料。经过TxT360数据集对比实验验证,该流水线处理后的网页数据在MMLU、TriviaQA等基准测试中表现优于当前SOTA开源数据。

相关内容

热门资讯

国产算力链迎多重利好,海外光通... 开源证券近日发布基础化工行业深度报告:模型端看,DeepSeek官宣发布DeepSeek-V3.1,...
华为云回应架构调整:更多资源将... 21世纪经济报道记者倪雨晴 近日,有报道称,华为云发布了组织架构调整方案,将对多个事业部进行整合重组...
创亚洲纪录!成都企业完成→ 8月24日,位于成都的中科奥格生物科技有限公司(以下简称“中科奥格”)宣布,该公司自主研发的四基因编...
楚天科技获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示楚天科技(300358)新获得一项实用新型专利授权,专利名为“...
LPDDR5内存:美光半导体引... 在5G与人工智能技术的双重推动下,市场对于内存性能的要求达到了前所未有的高度。美光的LPDDR5 D...
广州“穗善‘AI’守护行动”启... 中新网广州8月25日电 (蔡敏婕 张萌)广州市民政局25日发布消息称,“穗善‘AI’守护行动”启动。...
利优比压铸取得一种模芯内冷套专... 金融界2025年8月25日消息,国家知识产权局信息显示,利优比压铸(大连)有限公司取得一项名为“一种...
至纯科技获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示至纯科技(603690)新获得一项发明专利授权,专利名为“一种...
【环时深度】从“先驱”到“跟不... 【环球时报记者 刘文璋 环球时报驻日本特约记者 潘小多 严格】编者的话:日本总务省7月发布2025年...
燃动科创金引擎 杭州打造科技金... 宇树科技拿到世界知识产权组织全球奖;通义千问、DeepSeek排名全球大模型榜单前列;群核科技空间理...
欣达电子取得线路板加工用装夹工... 金融界2025年8月25日消息,国家知识产权局信息显示,龙岩市武平县欣达电子有限公司取得一项名为“一...
两大电信运营商用户数据被泄露 近日,据外媒报道,英国电信运营商科尔特的内部系统确认遭受了网络攻击。作为主要的电信服务提供商之一,科...
1.2万架无人机灯光秀即将上演... 在深圳经济特区建立45周年之际 无人机灯光秀表演 将于8月26日晚上演 这场顶级视觉盛宴 在哪看?...
荣耀X7d手机发布 搭载650... 【CNMO科技消息】8月25日,荣耀在海外市场正式发布新款入门级智能手机X7d。该机型定位为高性价比...
祁县经济开发区:以“智”提“质... 新华社客户端太原8月25日电 近年来,山西祁县经济开发区以创新驱动为引领,锚定智能制造,推动传统产业...
广博会成科技秀场,超400亿签... 南方财经见习记者郭莎 广州报道 “AI中医为我精准把脉,提示湿气重、气血不足,还给出了饮食调理建议;...
全国首个全尺寸人形机器人赛事合... 来源:滚动播报 (来源:市场星报) 8月24日,第二十七届中国机器人及人工智能大赛人形...
世纪恒通:基于自然语言处理技术... 证券之星消息,世纪恒通(301428)08月25日在投资者关系平台上答复投资者关心的问题。 投资者提...
原创 韦... 今天可得跟你们唠唠一个超震撼的天文大发现!韦布望远镜又立大功啦,发现了目前已知的最遥远星系,而且这星...
4140米 深海打卡 8月23日清晨,“海琴”号从4140米深海凯旋。新华社记者 张建松 摄 8月23日,“海琴”号在4...