看完苹果大模型的论文,我只能说:如来。
创始人
2024-03-16 01:51:02
0

原标题:看完苹果大模型的论文,我只能说:如来。

大伙儿有没有发现,放弃造车后的苹果,最近在 AI 上的动向是越来越频繁了。

这不,今天一大早就有媒体报道,苹果收了一家搞视觉检测的加拿大 AI 初创公司。但还没一会儿,就又传出个大消息,说是苹果大模型要来了。

正当世超满怀期待想要看看怎么个事儿,却发现所谓的苹果大模型,只是一篇论文。。。

在 arXiv 上,苹果上新了一篇名为《 MM1 : Methods , Analysis & Insights from Multimodal LLM Pre-training 》(多模态大型语言模型预训练的方法,分析和洞察)的文章。

论文里,他们公布了个名叫 MM1 的基础大模型系列,其中 MM1 支持图文多模态,参数规模也分了小杯的 30 亿、中杯的 70 亿,还有大杯的 300 亿三种。

世超总体看起下来, MM1 的原理和市面上其他的一些大模型比,并没啥大差别。

但,世超还是翻到了些比较有意思的干货。因为他们通过一大堆实验,研究出了些能让多模态大语言模型变得更聪明的小技巧。

就比如,他们在训练模型的一开始,就给 AI 来了一波 “ 消融实验 ” ,大伙可别被这个生僻的名词给吓到了,消融实验,咱可以粗略地把它理解成 “ 可控制变量法 ” 。

就像差评君说他打游戏菜,是因为空调温度太低影响了他的发挥,那咱就空调温度往上调调;当然也可能是屏幕太亮,晃着眼差评君的眼睛了,所以咱也把屏幕亮度调低试试。。。

总之经过一系列调整之后,肯定能找出差评君游戏菜的锅,到底该谁背。。。

同样,在训练苹果大模型时,技术人员也挨个调配置,比如修改预训练数据源,或者调整图像分辨率,来看看调整之后,对模型性能到底有啥影响、有多大影响。

这样做的目的,就是要确认哪种组合设计可以让模型变得更聪明,世超也就不卖关子,直接公布最后的 “ 结果 ” 了。

首先,他们发现图像编码器的设计,尤其是图像分辨率和图像标记的数量,对模型性能的影响贼大。

说人话就是,图像越清晰、标记的细节越多,模型效果也就越好。

模型在不同图像编码器配置下,对不同图像分辨率和数据预训练的消融实验结果

还有咱们都知道,一般多模态多模型都能分成视觉模型、大语言模型和视觉语言连接器( 帮助模型理解图片内容,并用文字解释的部分 )三部分。

苹果则发现,其中视觉语言连接器相对是个小透明,无论它具体咋设计,对模型性能的影响都比较小。

另外再举个例子,模型从来没见过猫的图片,但在测试的时候却能认出猫是猫,这叫零样本性能。他们则发现,要想提高模型的零样本( zero-shot )性能,训练模型时,带标题的图像数据重要。。。

说实话,上面的这些发现,多少还是有些人类能理解的逻辑在里面。

但这论文我越看,就越觉得 AI 妖。

因为实验发现“ 45% 的图像 - 标题数据 + 45% 的交错图像 - 文本数据 + 10% 的纯文本数据 ” ,这种比例的数据,对他们的多模态大模型训练最有效。

这配方居然还有零有整的,而苹果就是研究出这个配方的厨子。。。

还有一点就是, MM1 也用上了最近流行的混合专家 MoE 架构这种架构能给模型大脑扩容( 提高参数量 )的同时,又不会影响到模型推理速度。

这个 MoE 架构可以理解成,把一个模型拆成好几个 “ 专家 ” ,每个专家负责处理不同的任务。

假设你去医院看病,传统模型就像一个全科医生,他可以处理各种疾病,但没法子做到科科都精通。

MoE 架构则更像一个医院,它有不同的科室,医院系统会根据你的病情调一个最适合的科室大夫,既不会浪费医疗资源,又能给你提供更专业的医疗建议。

这次,苹果就搞了一个有 64 个专家的 30 亿参数模型,和一个有 32 个专家的 70 亿参数模型。

反正经苹果这么一调教,按照他们的说法, MM1 已经在某些领域超过了群内同行,达到了 SOTA ,也就是目前最先进的水平。

SOTA 的定语有点长,大家细品

最后世超想说的是,之前在 2024 苹果股东大会上,库克就提过苹果今年要在 GenAI 领域大展拳脚。

而这篇论文,或许可以看作是苹果进入生成式 AI 领域的一块敲门砖,也变相跟外界解释了一波其实他们一直都在紧跟潮流,没有外界说得那么落伍。

还有论文里的发现,虽说有些零散,但好歹也让以后的大模型炼丹,有了些方向。

不过咱也说实话,且不和微软、谷歌这些大模型第一梯队的比了。。。

单是国内主流手机厂商,都已经吹响了 AI 大模型手机的冲锋号角,魅族要 All in AI , OPPO 成立了 AI 中心,华为的鸿蒙 4.0 也接入了盘古大模型。

苹果再不整,可就真来不及了。

最后,如果这大模型能成,我对他的要求就一个,求求给 siri 换个好使的脑子吧。。。

撰文西西 编辑:江江 & 面线 封面:焕妍

图片、资料来源

《 MM1 : Methods , Analysis & Insights from Multimodal LLM Pre-training 》

相关内容

热门资讯

时隔36年再现,明晚记得抬头看... 6月29日,太阳系中的行星 海王星与 土星相合, 上演“星星相吸”。届时如果天气晴好,我国感兴趣的公...
连打40万页创世界纪录,奔图“... 全球科技竞争日益激烈,中国自主创新释放出强大的韧性和活力。2025年6月26日,奔图扛打再破纪录暨2...
科技感拉满!这场机器人开发者大... 2025年睿抗机器人开发者大赛(RAICOM)是极具影响力的全国性赛事。大赛以“机器照护人”为主题,...
潍坊三建取得建筑用切割设备专利... 金融界2025年6月28日消息,国家知识产权局信息显示,潍坊三建建材科技有限公司取得一项名为“一种建...
望岳谈|“加减乘除”,山东让技... 6月27日,2024年度山东省科学技术奖揭晓。获奖的290个项目(人选),折射出山东科技创新的新常态...
全球首艘纯氨燃料内燃机动力示范... 感谢IT之家网友 、 的线索投递! 6 月 28 日消息,据安徽日报报道,全球首艘纯氨燃料内燃机动...
广东加快构建人工智能标准体系,... 深圳商报·读创客户端驻穗记者 姚嘉莉 通讯员 粤市监 近日,广东省人工智能标准化技术委员会(以下简称...
赛腾股份获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示赛腾股份(603283)新获得一项实用新型专利授权,专利名为“...
谷歌新量子芯片跨越精度里程碑,... 量子计算的未来,正在悄然改变我们对计算机世界的认知。随着量子技术的逐步突破,全球科技领域迎来了前所未...
我国首个发电行业大模型“擎源”... 记者今天(28日)从国家能源集团获悉,我国首个发电行业专业大模型——“擎源”在北京发布,模型参数达千...
原创 “... 2017年,一颗名为“奥陌陌”的神秘天体闯入太阳系,它以高达1.2的轨道离心率和远超太阳系逃逸速度的...
智慧旅游新引擎:物联网、大数据... 在智慧旅游的新时代,一系列高科技手段正悄然改变着旅游行业的面貌。物联网技术作为其中的佼佼者,凭借其强...
打造医学AI创新和人才新高地 ... 人民网上海6月28日电 6月27日,上海交通大学医学人工智能研究院成立仪式暨“大师论道”高质量学科发...
绍兴恒叶信息技术取得车辆道闸专... 金融界2025年6月28日消息,国家知识产权局信息显示,绍兴恒叶信息技术有限公司取得一项名为“车辆道...
格力电器获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示格力电器(000651)新获得一项发明专利授权,专利名为“一种...
小米YU7爆火催生黄牛:最高溢... 澎湃新闻记者 范佳来 “第一次看到像抢购潮牌一样抢购汽车,简直是车圈的一道奇迹。” 6月26日,留足...
杜比、奥迪官宣达成合作:Q7/... IT之家 6 月 28 日消息,杜比实验室与奥迪周二宣布建立合作伙伴关系,将于今年 7 月起在四款奥...
古希腊天文学辉煌成就背后的未解... 在人类探索宇宙奥秘的漫长历程中,古希腊天文学以其卓越成就,成为了世界天文学史上的一座丰碑。这一文明在...
第二十届中国国际中小企业博览会... 羊城晚报讯 6月27日,第二十届中国国际中小企业博览会在广州开幕。广东省委书记黄坤明,工业和信息化部...
因存在火灾隐患,安克宣布全球召... IT之家曾于6月13日报道,安克在美国地区召回 PowerCore 10000 移动电源(型号 A1...