看完苹果大模型的论文，我只能说：如来。_资讯

创始人

2024-03-16 01:51:02

0次

大伙儿有没有发现，放弃造车后的苹果，最近在 AI 上的动向是越来越频繁了。

这不，今天一大早就有媒体报道，苹果收了一家搞视觉检测的加拿大 AI 初创公司。但还没一会儿，就又传出个大消息，说是苹果大模型要来了。

正当世超满怀期待想要看看怎么个事儿，却发现所谓的苹果大模型，只是一篇论文。。。

在 arXiv 上，苹果上新了一篇名为《 MM1 : Methods , Analysis & Insights from Multimodal LLM Pre-training 》（多模态大型语言模型预训练的方法，分析和洞察）的文章。

论文里，他们公布了个名叫 MM1 的基础大模型系列，其中 MM1 支持图文多模态，参数规模也分了小杯的 30 亿、中杯的 70 亿，还有大杯的 300 亿三种。

世超总体看起下来， MM1 的原理和市面上其他的一些大模型比，并没啥大差别。

但，世超还是翻到了些比较有意思的干货。因为他们通过一大堆实验，研究出了些能让多模态大语言模型变得更聪明的小技巧。

就比如，他们在训练模型的一开始，就给 AI 来了一波 “ 消融实验 ” ，大伙可别被这个生僻的名词给吓到了，消融实验，咱可以粗略地把它理解成 “ 可控制变量法 ” 。

就像差评君说他打游戏菜，是因为空调温度太低影响了他的发挥，那咱就空调温度往上调调；当然也可能是屏幕太亮，晃着眼差评君的眼睛了，所以咱也把屏幕亮度调低试试。。。

总之经过一系列调整之后，肯定能找出差评君游戏菜的锅，到底该谁背。。。

同样，在训练苹果大模型时，技术人员也挨个调配置，比如修改预训练数据源，或者调整图像分辨率，来看看调整之后，对模型性能到底有啥影响、有多大影响。

这样做的目的，就是要确认哪种组合设计可以让模型变得更聪明，世超也就不卖关子，直接公布最后的 “ 结果 ” 了。

首先，他们发现图像编码器的设计，尤其是图像分辨率和图像标记的数量，对模型性能的影响贼大。

说人话就是，图像越清晰、标记的细节越多，模型效果也就越好。

模型在不同图像编码器配置下，对不同图像分辨率和数据预训练的消融实验结果

还有咱们都知道，一般多模态多模型都能分成视觉模型、大语言模型和视觉语言连接器（帮助模型理解图片内容，并用文字解释的部分）三部分。

苹果则发现，其中视觉语言连接器相对是个小透明，无论它具体咋设计，对模型性能的影响都比较小。

另外再举个例子，模型从来没见过猫的图片，但在测试的时候却能认出猫是猫，这叫零样本性能。他们则发现，要想提高模型的零样本（ zero-shot ）性能，训练模型时，带标题的图像数据很重要。。。

说实话，上面的这些发现，多少还是有些人类能理解的逻辑在里面。

但这论文我越看，就越觉得 AI 妖。

因为实验发现“ 45% 的图像 - 标题数据 + 45% 的交错图像 - 文本数据 + 10% 的纯文本数据 ” ，这种比例的数据，对他们的多模态大模型训练最有效。

这配方居然还有零有整的，而苹果就是研究出这个配方的厨子。。。

还有一点就是， MM1 也用上了最近流行的混合专家 MoE 架构，这种架构能给模型大脑扩容（提高参数量）的同时，又不会影响到模型推理速度。

这个 MoE 架构可以理解成，把一个模型拆成好几个 “ 专家 ” ，每个专家负责处理不同的任务。

假设你去医院看病，传统模型就像一个全科医生，他可以处理各种疾病，但没法子做到科科都精通。

MoE 架构则更像一个医院，它有不同的科室，医院系统会根据你的病情调一个最适合的科室大夫，既不会浪费医疗资源，又能给你提供更专业的医疗建议。

这次，苹果就搞了一个有 64 个专家的 30 亿参数模型，和一个有 32 个专家的 70 亿参数模型。

反正经苹果这么一调教，按照他们的说法， MM1 已经在某些领域超过了群内同行，达到了 SOTA ，也就是目前最先进的水平。

SOTA 的定语有点长，大家细品

最后世超想说的是，之前在 2024 苹果股东大会上，库克就提过苹果今年要在 GenAI 领域大展拳脚。

而这篇论文，或许可以看作是苹果进入生成式 AI 领域的一块敲门砖，也变相跟外界解释了一波其实他们一直都在紧跟潮流，没有外界说得那么落伍。

还有论文里的发现，虽说有些零散，但好歹也让以后的大模型炼丹，有了些方向。

不过咱也说实话，且不和微软、谷歌这些大模型第一梯队的比了。。。

单是国内主流手机厂商，都已经吹响了 AI 大模型手机的冲锋号角，魅族要 All in AI ， OPPO 成立了 AI 中心，华为的鸿蒙 4.0 也接入了盘古大模型。

苹果再不整，可就真来不及了。

最后，如果这大模型能成，我对他的要求就一个，求求给 siri 换个好使的脑子吧。。。

撰文：西西编辑：江江 & 面线封面：焕妍

图片、资料来源：

《 MM1 : Methods , Analysis & Insights from Multimodal LLM Pre-training 》