>>> Mistral AI 用「磁力链接」开源了 87 GB 的 8x7B MoE 模型
有 “欧洲版 OpenAI” 之称的大模型创业公司 ——Mistral AI 近日发布了一条仅包含磁力链接的推文:
来源:https://twitter.com/MistralAI/status/1733150512395038967
网友打开该磁力链接后发现居然是一个大小为 87 GB 的种子。从命名和目录结构来看,这是一个 PyTorch 模型文件。
上图的 “params.json”JSON 格式文件显然是该模型的主要参数信息,具体如下:
结合参数和文件名信息,Mistral AI 这次 “开源” 的 mixtral-8x7b-32kseqlen 是一个基于混合专家 (Mixture of Experts, MoE)的大模型,由 8 个 70 亿参数规模 (8×7b) 的专家网络组成。据称是全球首个开源 MoE 大模型。
MoE 是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或 “专家” 负责,然后根据输入数据的特性选择性地激活这些 “专家”。
MoE 核心组成:
根据 mixtral-8x7b-32kseqlen 的参数信息,该模型对每个 token 的推理使用 2 个专家进行处理(和传闻中的 GPT-4 一样)。
此前揭秘 GPT-4 技术细节 的文章提到,GPT-4 是由 16 个专家组成的 MoE 模型,每个专家则是一个包含 1110 亿参数的大模型,每次前向传递路由经过 2 个专家模型。
Mistral AI 目前仍没公布除模型下载链接外的任何信息,如果不想下载但又想体验一把,可以访问下面的网站:
对了,这不是 Mistral AI 第一次用 “留种” 的方式发布开源大模型。Mistral AI 在 9 月底发布的那条磁力链接是其开源的第一个大模型 Mistral-7B,该模型至今仍被称为「最好的 7B 模型」,在每个基准测试中都优于 Llama-2 13B,并且在代码、数学和推理方面优于 LLaMA-1 34B。
>>> 开源 MoE 模型 Mixtral 8x7B 性能超过 GPT-3.5
官方称,Mixtral 8x7B 是开放权重的高质量稀疏混合专家模型 (SMoE),采用 Apache 2.0 License 开源。在大多数基准测试中,Mixtral 的成绩都优于 Llama 2-70B,且推理速度提升了 6 倍。而且在大多数标准基准测试中超过 GPT-3.5。
因此,Mistral AI 称 Mixtral 是最强大的开放权重模型,也是成本 / 性能权衡方面的最佳模型。
Mixtral 主要特性
・32k 上下文
・支持英语、法语、意大利语、德语和西班牙语
・性能超过 Llama 2 系列和 GPT-3.5
・在代码生成方面具有强劲性能
・在 MT-Bench 上获得 8.3 分
Mixtral 作为稀疏混合专家网络,是一个纯解码器模型,其中前馈块从 8 组不同的参数组中选择。在每一层,对于每个 token,路由网络选择两组 “专家” 来处理 token 并相加地结合它们的输出。
Mixtral 总共有 45B 个参数,但每个 token 只使用 12B 个参数。因此,它以与 12B 模型相同的速度和成本处理输入和生成输出。
更多细节查看:https://mistral.ai/news/mixtral-of-experts/
phpy:PHP与Python互调用库,为PHP引入Python生态
哈工大人工智能专业大一学生写了70万行代码?
郭炜:开源大侠是怎样炼成的
这里有最新开源资讯、软件更新、技术干货等内容
点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦