一条磁力链接席卷AI圈,8x7B开源MoE打败GPT-3.5
创始人
2024-01-08 05:17:33
0

原标题:一条磁力链接席卷AI圈,8x7B开源MoE打败GPT-3.5

>>> Mistral AI 用「磁力链接」开源了 87 GB 的 8x7B MoE 模型

有 “欧洲版 OpenAI” 之称的大模型创业公司 ——Mistral AI 近日发布了一条仅包含磁力链接的推文:

来源:https://twitter.com/MistralAI/status/1733150512395038967

网友打开该磁力链接后发现居然是一个大小为 87 GB 的种子。从命名和目录结构来看,这是一个 PyTorch 模型文件。

上图的 “params.json”JSON 格式文件显然是该模型的主要参数信息,具体如下:

结合参数和文件名信息,Mistral AI 这次 “开源” 的 mixtral-8x7b-32kseqlen 是一个基于混合专家 (Mixture of Experts, MoE)的大模型,由 8 个 70 亿参数规模 (8×7b) 的专家网络组成。据称是全球首个开源 MoE 大模型。

MoE 是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或 “专家” 负责,然后根据输入数据的特性选择性地激活这些 “专家”。

MoE 核心组成:

  1. 专家 (Experts):训练有素的小型神经网络,擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式,如完全连接的网络、卷积网络等。
  2. 门控机制 (Gating Mechanism):MoE 架构决策者,这是一个智能路由系统,负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性,动态地将数据分配给不同的专家。

根据 mixtral-8x7b-32kseqlen 的参数信息,该模型对每个 token 的推理使用 2 个专家进行处理(和传闻中的 GPT-4 一样)。

此前揭秘 GPT-4 技术细节 的文章提到,GPT-4 是由 16 个专家组成的 MoE 模型,每个专家则是一个包含 1110 亿参数的大模型,每次前向传递路由经过 2 个专家模型。

Mistral AI 目前仍没公布除模型下载链接外的任何信息,如果不想下载但又想体验一把,可以访问下面的网站:

  • https://replicate.com/nateraw/mixtral-8x7b-32kseqlen
  • https://app.fireworks.ai/models/fireworks/mixtral-8x7b-fw-chat

对了,这不是 Mistral AI 第一次用 “留种” 的方式发布开源大模型。Mistral AI 在 9 月底发布的那条磁力链接是其开源的第一个大模型 Mistral-7B,该模型至今仍被称为「最好的 7B 模型」,在每个基准测试中都优于 Llama-2 13B,并且在代码、数学和推理方面优于 LLaMA-1 34B。

>>> 开源 MoE 模型 Mixtral 8x7B 性能超过 GPT-3.5

官方称,Mixtral 8x7B 是开放权重的高质量稀疏混合专家模型 (SMoE),采用 Apache 2.0 License 开源。在大多数基准测试中,Mixtral 的成绩都优于 Llama 2-70B,且推理速度提升了 6 倍。而且在大多数标准基准测试中超过 GPT-3.5。

因此,Mistral AI 称 Mixtral 是最强大的开放权重模型,也是成本 / 性能权衡方面的最佳模型。

Mixtral 主要特性

・32k 上下文

・支持英语、法语、意大利语、德语和西班牙语

・性能超过 Llama 2 系列和 GPT-3.5

・在代码生成方面具有强劲性能

・在 MT-Bench 上获得 8.3 分

Mixtral 作为稀疏混合专家网络,是一个纯解码器模型,其中前馈块从 8 组不同的参数组中选择。在每一层,对于每个 token,路由网络选择两组 “专家” 来处理 token 并相加地结合它们的输出。

Mixtral 总共有 45B 个参数,但每个 token 只使用 12B 个参数。因此,它以与 12B 模型相同的速度和成本处理输入和生成输出。

更多细节查看:https://mistral.ai/news/mixtral-of-experts/

phpy:PHP与Python互调用库,为PHP引入Python生态

哈工大人工智能专业大一学生写了70万行代码?

郭炜:开源大侠是怎样炼成的

这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦

相关内容

热门资讯

推动人工智能产业迈向更高水平 人工智能是引领新一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应,是培育和发展新...
【奋斗者 正青春】全国新时代青... 凌晨的中北大学实验室里,一盏孤灯常明。仪器与电子学院测控系主任刘文耀伏案整理实验数据,手边是厚厚一沓...
全市三百青年突击队挺立科技创新... 本报记者 王琪鹏 “青年是祖国的前途、民族的希望、创新的未来。”在科技强国建设的征程中,北京共青团以...
Mac上快速搭建宽带连接指南 为Mac配置宽带连接的完整指南 在数字化时代,稳定高效的网络连接对Mac用户至关重要。无论是通过有线...
中美日6G专利占比差距犹如断崖... 4月1日,东部战区在台湾海峡举行了海峡雷霆2025a演习。之前没有发通知,两天就结束了,这一消息震惊...
段建维:青春逐梦雄安 科创星火... 点击上方 “ 河北共青团 ” → 点击右上角“ ... ” → 点选“ ★”, 为...
深圳市亿锋智能技术取得集成式无... 金融界2025年5月3日消息,国家知识产权局信息显示,深圳市亿锋智能技术有限公司取得一项名为“一种集...
标柔取得一种水下专用同轴电缆专... 金融界2025年5月3日消息,国家知识产权局信息显示,标柔特种电缆(上海)有限公司取得一项名为“一种...
华升鑫取得抗变形的组合式PCB... 金融界2025年5月3日消息,国家知识产权局信息显示,深圳市华升鑫科技有限公司取得一项名为“种抗变形...
漫评:青年一代挺膺担当,书写“... “青春须早为,岂能长少年”。随着五四青年节的到来,广大青年再次成为社会各界关注的焦点。新时代的中国青...
浙江杭州:匠心点亮万家灯火 4月29日,刚参加完庆祝中华全国总工会成立100周年暨全国劳动模范和先进工作者表彰大会的倪萍,又回到...
我国应用无人平台远程开发的海上... 新华社深圳5月3日电作为应用无人平台远程开发的海上稠油油田,中国海油深圳分公司番禺11-12平台3日...
拥抱智算!中兴通讯智算服务器订... 近年来,以ChatGPT为代表的大模型爆发性增长,带动了智能算力需求飙升,一座座智算中心拔地而起,部...
华为申请到达角测量方法等专利,... 金融界2025年5月3日消息,国家知识产权局信息显示,华为技术有限公司申请一项名为“到达角测量方法、...
巴菲特官宣退休,苹果CEO发文... 2025年5月3日,94岁的“股神”沃伦·巴菲特在伯克希尔·哈撒韦年度股东大会上宣布,将于年底正式退...
第二十三届太原煤炭(能源)工业... 以“绿色智能 引领未来”为主题的第二十三届太原煤炭(能源)工业技术与装备展览会日前在山西潇河国际会展...
芭田股份获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示芭田股份(002170)新获得一项发明专利授权,专利名为“一种...
如何让微信CRM精准降本又增效... 内容概要 在数字化转型浪潮中,微信CRM正成为企业降本增效的"秘密武器"。通过企业微信与智能工具的深...
三星显示申请显示设备专利,可提... 金融界2025年5月3日消息,国家知识产权局信息显示,三星显示有限公司申请一项名为“显示设备”的专利...
原创 原... 欧洲有一个科学家卡尔达诺曾预测自己的死亡日期,到了日期那一天,他自杀了,实现了自己的预言。 卡尔达诺...