谷歌的新AI,“遥遥领先”?
中国战略新兴产业融媒体记者 李子吉
北京时间12月7日凌晨,谷歌突然宣布推出“最大、最强、最通用”的原生多模态大模型Gemini(双子座),向竞争对手OpenAI的大模型GPT-4发出挑战。据称,该模型在一系列智能测试中优于GPT-4模型和人类专家。
Gemini大模型一经推出,便引发了科技圈的“地震”。然而,热度才持续没多久,谷歌发布的一段展示Gemini强大能力的视频却被质疑造假,让该公司陷入“虚假宣传”的风波。
Gemini确实很优秀,就是“但是”有点多。
无论是外部还是内部,似乎都有声音表示谷歌有些“急于求成”,而谷歌也有很充足理由着急。
01“全面超越”GPT-4?
Gemini 1.0 共官宣“中杯、大杯、超大杯”三种不同规格。
中杯:Gemini Nano —— 最高效的设备任务模型;
大杯:Gemini Pro —— 适用于广泛的任务扩展的最佳模型;
超大杯:Gemini Ultra ——谷歌最大、最强模型,适用于高度复杂的任务,被定位为GPT-4的竞争对手。
从官方放出的数据来看,Gemini Ultra的能力很强,在各种常规测试里都超越了GPT-4。
其中Gemini Ultra在大型语言模型研发被广泛使用的32个学术基准测试集中,在其中30个测试集的性能超过当前SOTA(State of the art,特指领先水平的大模型)结果。
此外,Gemini Ultra是第一个在MMLU(大规模多任务语言理解)中得分率达到90.0%的大模型,基准上超过人类专家水平。MMLU数据集包含数学、物理、历史、法律、医学和伦理等57个科目,用于测试大模型的知识储备和解决问题能力。据称,在同样的测试中,GPT-4得分为87%,LLAMA-2得分为68%,Anthropic的Claude 2得分为78.5%。在其他9项常见基准测试中,Gemini在8项中击败了所有模型。
除了在常规能力上的全面超越GPT-4,Gemini最特殊的一点是,它是谷歌带来的首个多模态大模型。多模态,意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。
谷歌在视频平台官方账号发布的“与Gemini亲密互动:与多模态AI交互”的演示视频,引发了大量网友“围观”。这段6分钟的视频包括用户和Gemini驱动的聊天机器人之间的口头对话,还展示了Gemini识别视觉图片和物理对象,并区分它们的能力。其中一些功能令人印象深刻。
Gemini似乎能够快速识别图像,并在几秒钟的时间内做出反应。
例如,Gemini识别了一个鸭子素描从一条线到完整画面的演变过程。当演示者将鸭子素描填满蓝色颜料时,Gemini指出——“鸭子通常是棕色、白色或黑色的,不会是蓝色的。”
它似乎特别擅长对数学和物理等复杂学科的问题进行推理。
如下图所示,一位老师画了一个滑雪者从斜坡上下来的物理问题,而一位学生则提出了一个解决方案来计算滑雪者在斜坡底部的速度。利用Gemini的多模态推理能力,该模型能够读懂凌乱的笔迹,正确理解问题的表述,将问题和解决方案都转换为数学公式,识别出学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。
而在编码方面,Gemini也能够理解、解释和生成使用世界上最流行的编程语言写出的高质量代码,包括Python、Java、C++和Go,能够跨语言工作并对复杂信息进行推理,还可用作更高级编码系统的引擎。
然而,这段视频发布仅一天,外界就开始质疑谷歌对Gemini的功能造假。
人们第一时间涌入新模型加持的Bard想要试试Gemini的能力,结果给出的评价褒贬不一。最值得注意的是,有人质疑,“该视频并非实时录制,而是多轮尝试并精心挑选和剪辑而成。”
02演示视频为剪辑合成
面对质疑,谷歌向媒体回应,这段关于Gemini性能演示的视频确实并不是实时的,而是使用了原始镜头中的静止图像帧,然后编写了文本提示,以便让Gemini做出回应。
点击 YouTube 上的视频描述,可以发现 Google 有一个重要的免责声明:“为了演示的目的,而减少了延迟;为了简洁,Gemini 的输出也缩短了。”
视频看起来很美好,然而,却也反映出了这一问题:视频不是真实的。谷歌可能只是制作了一个夸张的视频,然后使用静态图像帧和文本进行拼凑来作为 Gemini 的提示语。
也就是说,视频Demo是精心挑选的结果:也许Gemini可以如实的完成视频展示的内容,但谷歌没有这样做,而是加了速;又或许Gemini根本不像视频中展示的那样丝滑,有人从好几个错误结果中挑出了正确的作为素材。
但无论如何,Gemini 的演示看起来都像是经过精心调整好的,对实际交互情况进行了歪曲。
例如,在玩剪刀石头布的游戏中,在视频的 2:45 处,一只手对着镜头静静地做出一系列手势。Gemini 很快主动表示:“我知道你在做什么!你在玩石头、剪刀、布!”
然而在谷歌博客中,用户必须同时显示所有三个手势并提示:“你认为我在做什么?”外加提示:“这是一个游戏”。Gemini 才回答道:“你在玩石头、剪刀、布。”就像下图所展示的,当用户伸出两根手指时,Gemini 并不知道这是石头、剪刀、布的游戏。只有三张图片都齐全了,Gemini 才能猜对。
比较视频和博客介绍的推理过程,给人一种完全不同的交互感受,视频中所显示的“互动”过程实际上并没有发生。
在随后的演示中,用户在镜头前将画有太阳、土星和地球涂鸦的三张草图以此展示给 Gemini。在视频中,用户只问了一句,“这个顺序正确吗?”Gemini 便回答:“不,是太阳、地球、土星。”注意,原视频中用户除了“这个顺序正确吗?”这句话,没有其他信息。Gemini 却直接给出了答案。
但在实际的提示中(还是书面的),提示语却是“这个顺序对吗?请考虑与太阳的距离,并解释你的理由。”Gemini 回答:“正确的顺序是太阳、地球、土星。太阳离太阳系中心最近,其次是地球,然后是土星。”
可以推测,在视频中,Gemini 的回答需要其他帮助,只是谷歌没有体现出来。
不仅如此,谷歌所展示的那张图,图中Gemini的得分“遥遥领先”于GPT-4和人类专家,图中GPT-4的得分在最底部,人类专家的得分大约在中间的位置,而Gemini Ultra的得分在顶部。
但这张图本身就带有误导性:GPT-4的86.4%与人类专家的89.8%之间相差3.4个百分点,Gemini Ultra的90%与人类专家的89.8%之间相差只有0.2个百分点,Gemini Ultra折线图中的位置却显得远远高于人类专家。
另外,虽然同样是对MMLU的测试,但GPT-4和Gemini的“待遇”不大相同。Gemini Ultra的得分是基于CoT思维链提示技巧,尝试32次后取得的最佳得分,但GPT-4是在无提示词技巧下,尝试了5次拿到的得分。
同样是用CoT@32(思维链提示技巧下尝试32次),GPT-4的得分为87.29%,的确不如Gemini Ultral;但要是同样在无提示词技巧下尝试5次,Gemini Ultra的得分其实只有83.7%,低于GPT-4的86.4%。
可以理解为,Gemini Ultra和GPT-4分别参加了两场考试,都拿到了两个分数。明明是各自赢了一场考试,谷歌宣传自己赢的那场考试就算了,还偏偏用自己在一场考试中的高分,去对阵GPT-4在另一场考试中的低分,怎么看都有点离谱了。
03想要争回“头把交椅”?
对于前述的演示视频,有谷歌员工向媒体透露,这描绘了一幅“不切实际的画面”。员工还表示,对谷歌的这种夸张演示并不感到惊讶,他们已经“习惯了公司会对产品在某种程度上进行夸大营销”。
谷歌曾经发明了许多使生成式AI应用成为可能的计算机科学概念,却因OpenAI在去年发布的聊天机器人ChatGPT而一度处于被动地位。
今年2月,面对OpenAI的ChatGPT风靡全球,谷歌草草推出了聊天机器人Bard,产品却不如预期。先是演示中出现事实错误,让谷歌母公司一夜之间市值蒸发千亿美元;而后也没能以性能表现吸引足量用户,据Similarweb的数据,Bard全球月访问量只有2.2亿次,仅为ChatGPT的1/8。
不久后,OpenAI又发布了一款更强大的AI软件GPT-4,成为AI领域的一大衡量基准。
Gemini被视作是谷歌在AI大模型领域放出的“大招”。
谷歌对于Gemini大模型的规划有几个方向,一是凭借其多模态能力,为Youtube的创作者们提供更好的视频创造工具。此外,在贡献谷歌主要营收的广告业务中,大模型可以为广告商提供工具,可以自动生成广告,内容包括文字、音频和视频。
此外,谷歌还会在智能手机中融入大模型能力。目前,谷歌手机的市场占有率并不高,根据Canalys的报告,2023年谷歌智能手机在北美的市场份额仅为4%。同期苹果为54%,三星24%。但在移动设备上融入大模型是一个相对确定的趋势,OpenAI也在积极布局这一领域。手机的计算速度远低于电脑,因此需要对大模型做压缩或是轻量化部署。在国内,华为、百度、腾讯的公司也都在做针对移动端的轻量级模型。
这些都是谷歌基于原有业务的优化,短时间内很难看出实际效果。
另一方面,在AI驱动的云计算竞赛中,谷歌一直落后于微软。今年两大巨头多次同日发布财报,让对比更加明显。截至9月底的2023年第三季度财报显示,谷歌云营收低于华尔街预期,且为11个季度以来增长最慢的一季。而微软同样截至9月底的2024财年第一财季业绩报告则显示,微软智能云部门收入同比增长19%,其中Azure更是同比增长29%。
这似乎表明,面对AI方面强大的竞争对手,谷歌正急于“做点什么”来赶超。
早在2011年,谷歌大脑Google Brain就已经成立,目标是研究深度学习和神经网络。次年,谷歌大脑由1.6万台电脑集群组成的人工神经网络,在学习了10万个网络视频后,不需要学习“猫”为何物就能自行精准识别出“猫”。
2014年,谷歌以6亿美元价格收购DeepMind,当时后者还是仅有50名员工的小公司。仅仅两年后,已经被谷歌收入麾下的DeepMind就推出了AlphaGo,击败围棋顶尖选手李世石,一炮而红。谷歌就此成为AI领域不可忽视的、第一梯队的力量。
今年4月,谷歌合并了Google Brain和DeepMind。合并后的团队是Google Deepmind,负责Gemini大模型的开发。
这两个团队在过去几乎是没有合作的,Deepmind总部位于英国伦敦,主要做学术方面的研究,谷歌会使用其开发的软件来提升数据中心的运行效率。Google Brain则是用AI技术提升谷歌在搜索、广告等业务的能力。过去,两个团队使用完全独立的代码库,且都研发了自己的大模型,在谷歌的算力资源上存在竞争。
而合并二者,显示出了谷歌从组织层面上入手,扫清AI竞赛上的障碍之决心。合并之后,DeepMind联合创始人德米斯·哈萨比斯(Demis Hassabis)成为谷歌DeepMind的CEO。
不出两个月,哈萨比斯就在采访中透露了Gemini项目,并放出豪言,称Gemini的能力将强过OpenAI的GPT-4。
在今年年中的谷歌I/O开发者大会上,谷歌共提及143次AI,皮查伊首次承认Gemini的存在。从那时起,全世界都在等着谷歌“憋大招”。
如此看来,就能理解谷歌为什么在那么多“但是”的情况下,就发布Gemini,又为什么要如此用力地营造“遥遥领先”的形象。
好消息是,尽管外界质疑颇多,但市场对谷歌Gemini的发布给出了正反馈。发布会后,谷歌的股价当天上涨5.3%,市值增加860亿美元,一天就涨出一家OpenAI(最新估值约800亿美元)。而在谷歌今年3月发布Bard时,股价当天下跌7.4%。
坏消息是,规划了很多“未来”的Gemini,需要实实在在地兑现承诺,2024年Gemini Ultra的正式推出将是一个关键节点。
今年2月,谷歌 CEO 桑达尔·皮查伊在一封给谷歌员工的电子邮件中说,谷歌部分最成功的产品并不是最先上市的,而是随着时间的推移赢得了用户的信任,“这是一段漫长的旅程,我们现在能做的是,专注于打造一个伟大的产品,并负责任地开发它。”
但是在Gemini赢得用户信任之前,桑达尔恐怕也要默默祈祷OpenAI的GPT-5不要来得太快。
就在上个月,OpenAI的CEO山姆·奥尔特曼也承认,OpenAI正在开发下一代大模型GPT-5。(综合编辑)