🤖 由 文心大模型 生成的文章摘要
上文介绍了社交平台小红书开源的大模型do
社交平台小红书,在大模型领域迈出了重要一步,开源了其首个大模型——dots.llm1。这一举措在业内引起了广泛关注,为大模型的发展注入了新的活力。
dots.llm1是一个拥有1420亿参数的专家混合模型(MoE)。与其他模型不同的是,它在推理过程中仅激活140亿参数。这种独特的设计使得模型在保持高性能的同时,能够大幅度降低训练和推理成本,为模型的广泛应用提供了更经济高效的解决方案。
dots.llm1最大的特色之一,是使用了11.2万亿token的非合成高质量训练数据。在现阶段的开源大模型中,如此大规模的非合成数据非常罕见。小红书凭借自身庞大的语料库,为模型训练提供了丰富而优质的数据资源。这些数据来源于真实的网络内容,经过精心筛选和处理,确保了数据的高质量和多样性。
得益于高质量的训练数据,在中文测试中,dots.llm1展现出了强大的性能。它以91.3的平均分,超过了DeepSeek开源的V2、V3,以及阿里开源的Qwen2.532B和72B。这一成绩充分证明了dots.llm1在中文语言理解和处理方面的卓越能力。无论是语义理解、文本生成还是知识问答,dots.llm1都能给出高质量的回答。
在模型架构方面,dots.llm1使用了单向解码器Transformer架构,并将前馈网络替换为MoE。MoE将模型分为多个专家网络,每个专家网络专注于输入数据的不同方面。在推理过程中,并不激活所有的专家网络,而是根据输入标记的特性,动态地选择一小部分专家网络进行计算。这种稀疏激活的方式极大减少了算力的需求,同时保持了模型的高性能。具体来说,dots.llm1的MoE由128个路由专家和2个共享专家组成。在每个输入标记的处理过程中,dots.llm1会通过一个路由机制选择出6个最相关的专家网络,加上2个共享专家,总共激活8个专家网络。
此外,dots.llm1采用了经典的多头注意力机制(MHA),这是一种广泛应用于Transformer架构中的注意力机制。通过引入RMSNorm,dots.llm1能够更好地控制注意力机制的输出,从而提高模型的稳定性和性能。在训练过程中,dots.llm1还采用了AdamW优化器,进一步提高模型的性能和效率。
在数据处理上,dots.llm1构建了一套三级数据处理流水线,从杂乱无章的原始网页数据中筛选出高质量的语料。经过TxT360数据集对比实验验证,该流水线处理后的网页数据在MMLU、TriviaQA等基准测试中表现优于当前SOTA开源数据。