国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑
创始人
2024-04-03 13:55:26
0

原标题:国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑

智东西

作者 | 程茜

编辑 | 心缘

智东西4月2日报道,今天,全球移动互联网公司APUS与大模型创企新旦智能宣布,联手开源国内首个千亿参数的MoE(混合专家模型)APUS-xDAN大模型4.0,这也是国内首个可以在消费级显卡上运行的千亿MoE中英文大模型。

APUS-xDAN-4.0(MoE)参数规模为1360亿,可在消费级显卡4090上运行,据APUS实测,其综合性能超过GPT-3.5达到GPT-4的90%

数学能力上,测评基准GSM8K的测评得分为79,理解能力MMLU达到73分。

GitHub界面显示,APUS-xDAN-4.0MoE)模型文件链接即将发布。

项目地址:

https://github.com/shootime2021/APUS-xDAN-4.0-moe?tab=readme-ov-file

一、数学、推理能力碾压,推理成本下降400%

APUS-xDAN-4.0MoE在GitHub的页面显示了基准测评结果,其与Mixtral-8x7B(MoE)、Llama2-70B、Grok-1(MoE)进行了对比。

其中衡量模型语言理解、知识和推理能力的基准测试MMLU中,APUS-xDAN-4.0MoE排名第一,超过了Grok-1(MoE)。

在测试多步骤数学推理能力的单词问题集合测试GSM-9K以及MATH中,该模型得分均远高于其他三大模型。

四项测试中,APUS-xDAN-4.0MoE)在多学科任务的BIG-Bench-Hard测试中,得分为66.4,接近Mixtral-8x7B(MoE),低于Grok-1(MoE)的71.7分。

其中,Mixtral-8x7B(MoE)由大模型创企Mistral AI于去年年底发布,并在多项基准测试中性能都基本达到GPT-3.5;Llama2-70B是去年7月Meta开源的Llama 2大模型系列中,参数规模最大的版本;Grok-1(MoE)为马斯克旗下AI创企xAI本月初开源的大模型,参数规模为3140亿参数,是目前开源大模型中参数规模之最。

此外,在GitHub页面显示,APUS-xDAN-4.0(MOE)开源模型在“IQ-Quantized Tech”上量化为1.5位、2位和4位,可以在消费级显卡4090上运行。

具体来说,APUS-xDAN 大模型4.0(MoE)采用GPT-4类似的MoE架构,特点是多专家模型组合,同时激活使用只有2个子模块,实际运行效率对比传统Dense同尺寸模型效率提升200%,推理成本下降400%。在实际部署中,研究人员通过进一步高精度微调量化技术,使得模型尺寸缩小500%

二、32个MoE Transformer块组成,可处理多线程复杂需求

在实际的效果中,APUS-xDAN-4.0(MoE)可以理解复杂需求,如撰写广告文案时,要求涵盖“火焰人”、固定口号、摇滚乐歌词等。

该模型还可以找出段落中的实时性错误,并给出修改版本,包括品牌所属地区、语病等。

APUS-xDAN-4.0(MOE)模型的架构特点为,主要由32个相同的MoE Transformer块组成,与普通Transformer块相比,MoE Transformer块的FFN层被MoE FFN层替换。

张量经过门层计算每个专家模型的分数,根据专家分数从8个专家模型中选择Top-K专家。张量通过Top-K专家的输出进行聚合,从而得到MoE FFN层的最终输出。

每个专家由3个线性层(LinearLayers)组成。APUS-xDAN-4.0的所有Norm Layer都是用RMSNorm,与开源大模型Llama的方式一致。

在注意力层中,APUS-xDAN-4.0(MoE)中的QKV矩阵的Q矩阵形状为(4096,4096),K和V矩阵形状为(4096,1024)。

▲APUS-xDAN-4.0(MoE)模型架构图

三、APUS是投资方,7B模型表现超GPT-4

APUS-xDAN-4.0(MoE)背后的两家公司均来自国内,且APUS于今年3月投资了新旦智能。

新旦智能成立于2023年5月,此前该公司发布的xDAN-7B-Global在用于衡量大模型在机器翻译任务性能的综合性评估指标MT-Bench中,性能表现仅次于GPT-4。

▲MT-Bench排名

今年3月,新旦智能完成千万级别天使轮融资,投资方包括APUS和AI投资人周弘扬。

据了解,新旦智能的创始团队汇集了清华、伯克利等顶尖学府以及腾讯、Meta等头部科技玩家的员工,包括全球开源AI社区知名开发者、腾讯云架构师等。

与此同时,这也是APUS在开源大模型领域的最新进展。今年2月初,APUS与深圳大学国家工程实验室联合开源了APUS大模型3.0伶荔。

结语:更强开源MoE模型,或加速AI开发及应用创新

开源大模型对于全球大模型产业的技术进步与应用落地的重要性与日俱增,并逐渐显现出对标当下大模型顶流GPT-4的潜力。

在这个趋势下,APUS与新旦智能联手,既开源了目前国内参数规模最大的MoE模型,同时降低了其部署成本,为更多开发者提供了应用大模型能力的可能性,这或许将进一步加速AI开发及应用创新。

相关内容

热门资讯

新能源装配新利器:高精度机器人... 随着新能源产业的快速发展,对电池与电机的装配精度提出了前所未有的挑战,这一需求正引领着机器人夹爪技术...
218个项目!全国智能机器人锦... 深圳新闻网2025年7月8日讯(深圳商报记者 陈发清)近日,2025全国颠覆性技术创新大赛智能机器人...
阿里云智能副总裁安筱鹏 | 工... AI大模型的融入能显著提升制造业的竞争力,其中包含两个风向标:第一个风向标是今年1月美国拉斯维加斯的...
南科大“空海潜”无人集群挺进深... 深圳商报·读创客户端首席记者 吴吉 通讯员 洪妍 7月7日,南方科技大学海洋高等研究院牵头,联合科研...
开闭所、配电房智慧化改造:配网... 1、配网站房存在的问题 配网站房存在总数多、遍布范围广等情况,站点巡视耗人耗力,缺少提高效率的信息...
突破技术瓶颈!我国团队首次实现... ◎ 科技日报记者 陈曦 通讯员 赵晖 记者7日从天津大学获悉,该校精密仪器与光电子工程学院光电子科学...
原创 6... 下半年会有一大波小屏旗舰手机上市,而且骁龙8 Elite 2处理器也会提前到9月份发布,到时候小米1...
超聚变申请虚拟机迁移方法等相关... 金融界2025年7月7日消息,国家知识产权局信息显示,超聚变数字技术有限公司申请一项名为“虚拟机迁移...
外卖大战喂饱了谁? “瑞幸越来越像霸王茶姬,它倾向于植物奶基底兑咖啡,更偏向于95、90后。库迪越来越像蜜雪冰城,它倾向...
智汇金城,数智未来!2025年... 7月7日,由兰州市政府主办,市工信局、市数据局、市投促局承办的2025年兰州市数字经济高质量发展大会...
任天堂财报确认持续研发XR技术... (映维网Nweon 2025年07月08日)根据新发布的财报文件,任天堂证实团队依然有在研究虚拟现实...
合肥盛宝电气取得一种干式变压器... 金融界2025年7月8日消息,国家知识产权局信息显示,合肥盛宝电气有限公司取得一项名为“一种干式变压...
DeepSeek罕见领英扩招A... DoNews7月8日消息,据报道,DeepSeek近日在LinkedIn上大幅加码招聘,释放出可能正...
赛杰爱迪取得三支撑绝缘子固定结... 金融界2025年7月8日消息,国家知识产权局信息显示,赛杰爱迪(江苏)高压电气有限公司取得一项名为“...
广州凯康科技太赫兹掌中宝THz... 广州凯康科技THzMini迷你太赫兹水仪 太赫兹掌中宝迷你共振水仪-太赫兹健康水仪 (0.96) 健...
5G LAN再突破:广域互联开... 面对航空航天、金融保险等行业对数据传输安全,仓储物流等行业对灵活网络部署,政务、交通等行业对网络容灾...
青岛故事|专注造“心”出口30... 为发动机制作高端“心脏”,产品出口到30多个国家和地区;与80余家国内外著名企业建立全面战略合作关系...
2025人形机器人元年:“狂欢... 文 | 智能相对论,作者 | 陈泊丞 过去的半年,资本、工厂、媒体以及大众都盯上了人形机器人。 在...
再玩科技取得手持风扇专利 有效... 金融界2025年7月8日消息,国家知识产权局信息显示,深圳市再玩科技有限公司取得一项名为“一种手持风...
“AI医生”加速进化!两天完成... 转自:上观新闻 清华大学智能产业研究院院长张亚勤近日在接受第一财经的电视节目采访时表示,AI医院用...