多方位碾压对手!谷歌Gemini或加速人形机器人到来 AI手机普及亦可期
创始人
2024-01-08 22:03:07
0

原标题:多方位碾压对手!谷歌Gemini或加速人形机器人到来 AI手机普及亦可期

多模态,还是多模态。

丢出一枚“延迟发布”烟雾弹后,谷歌出其不意,在深夜憋了个大的,于当地时间12月6日提前发布了自研大模型Gemini——ChatGPT的最有力竞争对手。

Gemini实际上是一个人工智能模型家族:“大杯”Gemini Ultra、“中杯”Gemini Pro、“小杯”Gemini Nano,都支持上下文32K理解。

Gemini三种版本的能力对比图

其中,Gemini Ultra主要是为数据中心和企业应用设计,以其强大的原生多模态性能,再次引发了大家对通用人工智能的想象。

▌原生多模态碾压ChatGPT

多模态从一开始就是谷歌大模型框架的一部分。

OpenAI当下最强大的大模型GPT 4也号称多模态模型,它是怎么实现的呢?不是直接训练一个多模态模型,OpenAI先分别训练了纯文本、纯视觉和纯音频模型,然后将他们拼接在一起。

而谷歌从一开始就建立了一个“多感官”模型,给其“投喂”多模态数据(包括文字、音频、图片、视频、PDF文件等)进行训练。随后,研究人员又用额外的多模态数据进行了微调,进一步提升了模型的有效性。

Gemini支持输入文本、图像、音频和视频,输出图像和文字

基于此,谷歌称其多模态为原生多模态(natively multimodal),可以“无缝”理解、操作和组合不同类型的信息,拥有了强大的交互能力。

为了证明自己的产品比OpenAI的ChatGPT更出色,谷歌甩出了数张成绩单。

据谷歌介绍,从自然图像、音频、视频理解到数学推理,Gemini Ultra在32个常用的学术基准的30个上领先GPT 4。而在MMLU(大规模多任务语言理解)测试中,Gemini Ultra以90.0%的高分,成为第一个超过人类专家的模型。

MMLU测试包括数学、物理、历史、法律、医学和伦理等57个学科,旨在考察世界知识和解决问题的能力。

▌多模态的意义——为人形机器人铺路 更贴近AGI

通用人工智能(AGI)是具备与人类同等智能、或超越人类的人工智能,实现通用人工智能是AI领域的终极目标。这样的AI可以实现自我学习、自我改进、自我调整,进而解决任何问题而不需要人为干预,拥有多模态能力是前提条件。

谷歌DeepMind已经在研究如何将Gemini与机器人技术结合起来,与世界进行物理交互。据Wired报道,DeepMind首席执行官、Gemini团队代表德米斯•哈萨比斯(Demis Hassabis)表示,真正的多模态需要包括触摸和触觉反馈,将这类多模态模型应用于机器人技术能催生很多可能性,“随着时间的推移,Gemini的多模态能力将提升,其将获得更多的感官,包括触觉,我们正在对此进行深入探索。”

这意味着,Gemini可以真正用人类的方式理解周围的世界,接收各种类型的数据,包括文字、代码、音频、图像、视频,并给出同样多样化的响应,包括操纵机械臂给出动作回应,人类离通用人工智能更近了一步。

▌用于端侧设备的最高效模型 可在安卓设备上本地离线运行

谷歌表示,Gemini还是他们迄今为止最灵活的模型,能够高效地运行在数据中心和移动设备等多类型平台上。

端侧运行任务交给了Gemini Nano。Gemini Nano是通过对其他模型蒸馏得来的4位模型,号称用于端侧设备最高效的模型,可以在安卓设备上本地离线运行,Pixel 8 Pro的用户马上就能体验到。Gemini Nano有两种型号,Nano-1(18亿参数)和Nano-2(32.5亿参数)——分别针对低内存和高内存设备。

Pixel 8 Pro在录音机应用中使用Gemini Nano来总结会议音频,即使没有网络连接也可以实现

谷歌表示,得益于Gemini Nano,AI可以在更多样的设备、平台上运行,每个人都可以贴近AI。

Gemini Nano目前仅适用于Pixel 8 Pro上的Android 14。

▌一些多模态应用实例

Gemini会结合语言询问,以及配图中的食材,手把手教你该怎么做菜:

Gemini特别擅长对数学和物理等复杂学科的问题进行推理。举个例子,一位老师给出了一个物理问题“计算滑雪者在斜坡底部的速度”,一位学生提出了一个解决方案来。利用Gemini的多模态推理能力,该模型能够识别手写内容、理解问题,将问题和解决方案都转换为数学公式,找出出学生在解决问题时出错的具体推理步骤,最后给出问题的正确解决方案。

Gemini展示的其他多模态(以下例子中,输入包括图片、图表、视频、文字)理解能力:

Gemini猜对了纸团在最左边的杯子里

看图定位能力

厘清人物关系图谱

图像生成能力

分析视频为球员提供建议

理解网络梗图

▌何时可用?

目前,谷歌没有进行现场展示,也没有开发对外测试,实际效果依然要打一个问号。

从发布日起,Gemini可开始应用于Bard和Pixel 8 Pro智能手机,在接下来的几个月中,Gemini将陆续出现在谷歌更多的产品和服务中,包括搜索、广告、Chrome、Duet AI等等——

Bard将使用Gemini Pro的微调版本来执行更高级的推理、规划、理解等任务,这也是Bard自推出以来最大的升级,从12月13日开始,开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的 Gemini API访问Gemini Pro;

Pixel 8 Pro将是第一款运行Gemini Nano的智能手机,该手机于10月4日正式发布,是谷歌最新一代高端旗舰机。安卓开发人员可以通过AI Core使用Gemini Nano进行构建。Android AICore是Android 14中的一项新系统服务,可处理模型管理、运行时、安全功能等,简化用户将AI融入应用程序的工作。

而对于“王炸”版本Gemini Ultra,谷歌表示,其目前正处于信任和安全检查阶段,包括由受信任的外部方进行红队检查,并在广泛使用之前使用微调和基于人类反馈的强化学习(RLHF)进一步完善模型。在这个过程中,谷歌会先向部分客户、开发人员、合作伙伴以及安全和责任专家提供Gemini Ultra,供其进行早期实验和反馈,然后在明年初向开发人员和企业客户推出。

来源:科创板日报

相关内容

热门资讯

多款华为折叠屏手机,降价! 机构数据显示,2025年一季度,中国折叠屏手机出货量达到284万部,同比增长53.1%,市场表现有所...
开拓同位素产业新局 让核技术成... 5月16日,历经一年多的分离、提纯,全球首批利用商用堆生产的碳-14产品正式投放市场。同一天,“和福...
原创 三... 当谈到高端手机时,许多人第一反应是苹果或华为。可偏偏有那么一群人,甘愿多掏几千元,选择三星,也许他们...
杭州泉达取得具备止回功能的水利... 金融界2025年5月19日消息,国家知识产权局信息显示,杭州泉达建设有限公司取得一项名为“一种具备止...
只针对目标突触,不影响其他细胞... 原标题:只针对目标突触,不影响其他细胞分子工具能精准“开关”大脑回路 美国南加州大学研究团队开发出两...
全球首家“人工智能建筑设计与城... 南都讯 记者黄璐 通讯员廖晞媛 2025年5月17日 ,中国工程院院士、深总院首席总建筑师孟建民在中...
天问二号探测器转入发射区 计划... 中新社北京5月18日电 (记者 马帅莎)记者从中国国家航天局获悉,5月18日,中国行星探测工程天问二...
中国电信陕西公司率先商用“5G... 5月17日上午,中国电信陕西公司在西咸国际会议中心举行“聚智向新 开拓共赢——陕西电信5G-A正式商...
聚焦创新发展!2025年太原市... 各县(市、区)科技管理部门、党委宣传部、科协,市直有关单位,中北高新区管委会,各有关单位: 为深入学...
原创 三... 一年一度618大促活动正如火如荼地进行着。手机行业又开始热闹起来了。各大手机品牌纷纷开启了新一轮的“...
江苏本格取得定子的上料装置专利... 金融界 2025 年 5 月 17 日消息,国家知识产权局信息显示,江苏本格自动化科技有限公司取得一...
5G-A来了,如何影响你我(锐... 近日,位于江西省瑞金市经济技术开发区的5G数字产业园内,智能自动导引车在车间里来回穿行运送生产物料。...
全息纱幕还原古乐、VR体验卧薪... (央视财经《天下财经》)当下,“文博热”持续升温,当古韵与科技交织,历史与潮流碰撞,古老的文物“走”...
新疆夜空不明飞行物是什么?揭秘... 5月19日 星期一 农历四月二十二 新疆夜空不明飞行物是什么?揭秘来了。5月16日晚,新疆多地拍摄到...
算力基础设施建设持续提速 将给... 记者从5月17日在江西南昌举行的2025世界电信和信息社会日纪念活动上了解到,我国将推动算力互联网试...
中国电信山东公司举办“云改数转... 五月泉城,万物竞发。2025年5月17日,值此第57个世界电信日来临之际,作为山东数字强省建设的主力...
网速飞起!广州这三个小区成万兆... 5月17日,“万兆新生活,AI家更美好——2025世界电信日·广州移动万兆宽带网络服务发布会”在广州...
抗生素耐药性问题有望解决 据新华社巴黎电 法国国家科学研究中心日前宣布,该机构参与的科研团队成功识别出一种新分子NM102,能...
哈洽IN现场|哈洽会现“阳光搬... 世界因科技的绚丽而多彩,生活因科技的融入而更加丰富多彩。第34届哈洽会哈尔滨展区人头攒动,一款能让阳...
广东敏卓机电取得散热风扇专利,... 金融界2025年5月17日消息,国家知识产权局信息显示,广东敏卓机电股份有限公司取得一项名为“一种散...