小红书开源首个大模型dots.llm1,11万亿非合成训练数据带来惊艳表现
创始人
2025-06-10 05:41:24
0
🤖 由 文心大模型 生成的文章摘要

上文介绍了社交平台小红书开源的大模型do

社交平台小红书,在大模型领域迈出了重要一步,开源了其首个大模型——dots.llm1。这一举措在业内引起了广泛关注,为大模型的发展注入了新的活力。

dots.llm1是一个拥有1420亿参数的专家混合模型(MoE)。与其他模型不同的是,它在推理过程中仅激活140亿参数。这种独特的设计使得模型在保持高性能的同时,能够大幅度降低训练和推理成本,为模型的广泛应用提供了更经济高效的解决方案。

dots.llm1最大的特色之一,是使用了11.2万亿token的非合成高质量训练数据。在现阶段的开源大模型中,如此大规模的非合成数据非常罕见。小红书凭借自身庞大的语料库,为模型训练提供了丰富而优质的数据资源。这些数据来源于真实的网络内容,经过精心筛选和处理,确保了数据的高质量和多样性

得益于高质量的训练数据,在中文测试中,dots.llm1展现出了强大的性能。它以91.3的平均分,超过了DeepSeek开源的V2、V3,以及阿里开源的Qwen2.532B和72B。这一成绩充分证明了dots.llm1在中文语言理解和处理方面的卓越能力。无论是语义理解、文本生成还是知识问答,dots.llm1都能给出高质量的回答。

在模型架构方面,dots.llm1使用了单向解码器Transformer架构,并将前馈网络替换为MoE。MoE将模型分为多个专家网络,每个专家网络专注于输入数据的不同方面。在推理过程中,并不激活所有的专家网络,而是根据输入标记的特性,动态地选择一小部分专家网络进行计算。这种稀疏激活的方式极大减少了算力的需求,同时保持了模型的高性能。具体来说,dots.llm1的MoE由128个路由专家和2个共享专家组成。在每个输入标记的处理过程中,dots.llm1会通过一个路由机制选择出6个最相关的专家网络,加上2个共享专家,总共激活8个专家网络。

此外,dots.llm1采用了经典的多头注意力机制(MHA),这是一种广泛应用于Transformer架构中的注意力机制。通过引入RMSNorm,dots.llm1能够更好地控制注意力机制的输出,从而提高模型的稳定性和性能。在训练过程中,dots.llm1还采用了AdamW优化器,进一步提高模型的性能和效率。

在数据处理上,dots.llm1构建了一套三级数据处理流水线,从杂乱无章的原始网页数据中筛选出高质量的语料。经过TxT360数据集对比实验验证,该流水线处理后的网页数据在MMLU、TriviaQA等基准测试中表现优于当前SOTA开源数据。

相关内容

热门资讯

华能水电获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示华能水电(600025)新获得一项实用新型专利授权,专利名为“...
visionOS 26 全面升... IT之家 6 月 10 日消息,苹果公司在 visionOS 26 中,将对 Apple Visio...
苹果iOS 26发布 AirP... 快科技6月10日消息,今日,苹果正式发布全新操作系统iOS 26,为AirPods带来录音棚级录音和...
商业化路径渐明 家用机器人赛道... 人民财讯6月10日电,相比于还未见到商业化曙光的通用人形机器人,家用机器人赛道公司正在排队融资和IP...
小米SU7 Ultra又给中国... 太疯狂了!这次雷军又该被人酸了! 为什么?就因为小米SU7 Ultra又拿了个第一,而且是在目前大多...
2025网聚“合”力丨以“人工... 6月10-11日,2025年中国网络文明大会将在合肥启幕。这座“科里科气”的创新之城,正以人工智能技...
一批重大工程取得新进展 为经济... 央广网北京6月9日消息 据中央广播电视总台中国之声《新闻和报纸摘要》报道,连日来,一批重大工程取得新...
直击WWDC25:苹果系统视觉... 出品 | 搜狐科技 作者 | 张雅婷 6月10日消息,苹果举行年度全球开发者大会(WWDC 2025...
新华每日电讯:别把“韦神”的学... 一个4秒短视频,一段3句话的个人介绍,让一位朴实的青年教师在短短几天内涨粉2300万,一跃成为社交平...
英国金融监管机构与英伟达合作 ... 英国金融行为监管局(FCA)周一宣布与美国芯片制造商英伟达达成合作,将允许银行在安全环境中进行人工智...
海归科学家黄志伟:择安静一隅 ... “很多人说哈尔滨冬天冷,但正是这种气候能让人保持冷静,在年富力强的时候专心做好研究。”从海外归来入职...
Niantic Spatial... 编译/VR陀螺 以AR平台开发闻名的Niantic公司,近日分拆成立了专注于空间计算技术的新公司Ni...
谷歌All in AI的背后驱... 文 | 王智远 两个多小时,听完之后一个感受:信息量巨大。 谷歌和Alphabet的首席执行官桑达...
马斯克的“星链”已坠落近600... 今天,马斯克的“星链”卫星频繁坠落的消息在网上炸开了锅。这个原本被寄予厚望的全球互联网计划,突然变成...
和辉光电获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示和辉光电(688538)新获得一项实用新型专利授权,专利名为“...
自动行走、自动养护 智能造桥机... 湖北日报讯(记者林晶、通讯员周成臣 李鹏远)6月9日,合武高铁跨沪渝蓉高速公路特大桥上,4台智能造桥...
豪美新材获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示豪美新材(002988)新获得一项实用新型专利授权,专利名为“...
两部门:开展智能养老服务机器人... 6月9日电 据工信部网站消息,6月9日,工业和信息化部办公厅、民政部办公厅发布关于开展智能养老服务机...
小红书开源首个大模型dots.... 🤖 由 文心大模型 生成的文章摘要 上文介绍了社交平台小红书开源的大模型do 社交平台小红书,在...