小红书开源首个大模型dots.llm1，11万亿非合成训练数据带来惊艳表现_资讯

小红书开源首个大模型dots.llm1，11万亿非合成训练数据带来惊艳表现

创始人

2025-06-10 05:41:24

0次

🤖 由文心大模型生成的文章摘要

上文介绍了社交平台小红书开源的大模型do

社交平台小红书，在大模型领域迈出了重要一步，开源了其首个大模型——dots.llm1。这一举措在业内引起了广泛关注，为大模型的发展注入了新的活力。

dots.llm1是一个拥有1420亿参数的专家混合模型（MoE）。与其他模型不同的是，它在推理过程中仅激活140亿参数。这种独特的设计使得模型在保持高性能的同时，能够大幅度降低训练和推理成本，为模型的广泛应用提供了更经济高效的解决方案。

dots.llm1最大的特色之一，是使用了11.2万亿token的非合成高质量训练数据。在现阶段的开源大模型中，如此大规模的非合成数据非常罕见。小红书凭借自身庞大的语料库，为模型训练提供了丰富而优质的数据资源。这些数据来源于真实的网络内容，经过精心筛选和处理，确保了数据的高质量和多样性。

得益于高质量的训练数据，在中文测试中，dots.llm1展现出了强大的性能。它以91.3的平均分，超过了DeepSeek开源的V2、V3，以及阿里开源的Qwen2.532B和72B。这一成绩充分证明了dots.llm1在中文语言理解和处理方面的卓越能力。无论是语义理解、文本生成还是知识问答，dots.llm1都能给出高质量的回答。

在模型架构方面，dots.llm1使用了单向解码器Transformer架构，并将前馈网络替换为MoE。MoE将模型分为多个专家网络，每个专家网络专注于输入数据的不同方面。在推理过程中，并不激活所有的专家网络，而是根据输入标记的特性，动态地选择一小部分专家网络进行计算。这种稀疏激活的方式极大减少了算力的需求，同时保持了模型的高性能。具体来说，dots.llm1的MoE由128个路由专家和2个共享专家组成。在每个输入标记的处理过程中，dots.llm1会通过一个路由机制选择出6个最相关的专家网络，加上2个共享专家，总共激活8个专家网络。

此外，dots.llm1采用了经典的多头注意力机制（MHA），这是一种广泛应用于Transformer架构中的注意力机制。通过引入RMSNorm，dots.llm1能够更好地控制注意力机制的输出，从而提高模型的稳定性和性能。在训练过程中，dots.llm1还采用了AdamW优化器，进一步提高模型的性能和效率。

在数据处理上，dots.llm1构建了一套三级数据处理流水线，从杂乱无章的原始网页数据中筛选出高质量的语料。经过TxT360数据集对比实验验证，该流水线处理后的网页数据在MMLU、TriviaQA等基准测试中表现优于当前SOTA开源数据。

上一篇：华泰证券：AI算力需求持续看好 Agent应用向复杂场景拓展

下一篇：两部门：开展智能养老服务机器人结对攻关与场景应用试点工作

热门资讯

国产算力链迎多重利好，海外光通... 开源证券近日发布基础化工行业深度报告：模型端看，DeepSeek官宣发布DeepSeek-V3.1，...

华为云回应架构调整：更多资源将... 21世纪经济报道记者倪雨晴近日，有报道称，华为云发布了组织架构调整方案，将对多个事业部进行整合重组...

创亚洲纪录！成都企业完成→ 8月24日，位于成都的中科奥格生物科技有限公司（以下简称“中科奥格”）宣布，该公司自主研发的四基因编...

楚天科技获得实用新型专利授权：... 证券之星消息，根据天眼查APP数据显示楚天科技（300358）新获得一项实用新型专利授权，专利名为“...

LPDDR5内存：美光半导体引... 在5G与人工智能技术的双重推动下，市场对于内存性能的要求达到了前所未有的高度。美光的LPDDR5 D...

广州“穗善‘AI’守护行动”启... 中新网广州8月25日电 (蔡敏婕张萌)广州市民政局25日发布消息称，“穗善‘AI’守护行动”启动。...

利优比压铸取得一种模芯内冷套专... 金融界2025年8月25日消息，国家知识产权局信息显示，利优比压铸（大连）有限公司取得一项名为“一种...

至纯科技获得发明专利授权：“一... 证券之星消息，根据天眼查APP数据显示至纯科技（603690）新获得一项发明专利授权，专利名为“一种...

【环时深度】从“先驱”到“跟不... 【环球时报记者刘文璋环球时报驻日本特约记者潘小多严格】编者的话：日本总务省7月发布2025年...

燃动科创金引擎杭州打造科技金... 宇树科技拿到世界知识产权组织全球奖；通义千问、DeepSeek排名全球大模型榜单前列；群核科技空间理...

欣达电子取得线路板加工用装夹工... 金融界2025年8月25日消息，国家知识产权局信息显示，龙岩市武平县欣达电子有限公司取得一项名为“一...

两大电信运营商用户数据被泄露近日，据外媒报道，英国电信运营商科尔特的内部系统确认遭受了网络攻击。作为主要的电信服务提供商之一，科...

1.2万架无人机灯光秀即将上演... 在深圳经济特区建立45周年之际无人机灯光秀表演将于8月26日晚上演这场顶级视觉盛宴在哪看？...

荣耀X7d手机发布搭载650... 【CNMO科技消息】8月25日，荣耀在海外市场正式发布新款入门级智能手机X7d。该机型定位为高性价比...

祁县经济开发区：以“智”提“质... 新华社客户端太原8月25日电近年来，山西祁县经济开发区以创新驱动为引领，锚定智能制造，推动传统产业...

广博会成科技秀场，超400亿签... 南方财经见习记者郭莎广州报道 “AI中医为我精准把脉，提示湿气重、气血不足，还给出了饮食调理建议；...

全国首个全尺寸人形机器人赛事合... 来源：滚动播报（来源：市场星报） 8月24日，第二十七届中国机器人及人工智能大赛人形...

世纪恒通：基于自然语言处理技术... 证券之星消息，世纪恒通(301428)08月25日在投资者关系平台上答复投资者关心的问题。投资者提...

原创韦... 今天可得跟你们唠唠一个超震撼的天文大发现！韦布望远镜又立大功啦，发现了目前已知的最遥远星系，而且这星...

4140米深海打卡 8月23日清晨，“海琴”号从4140米深海凯旋。新华社记者张建松摄 8月23日，“海琴”号在4...

小红书开源首个大模型dots.llm1，11万亿非合成训练数据带来惊艳表现

相关内容

热门资讯