谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合
创始人
2024-01-08 10:04:39
0

原标题:谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合

机器之能报道

编辑:吴昕

又是一个不眠之夜,神仙扎堆献技

当地时间 12 月 6 日,谷歌 CEO Sundar Pichai 官宣 Gemini 1.0 版正式上线。在此之前,这款被谷歌寄予厚望对抗 OpenAI 的武器,发布时间一直被拖延。

未曾料到,来得如此猝不及防。

研发负责人、谷歌 DeepMind CEO Demis Hassabis 代表 Gemini 团队在发布会上正式推出大模型 Gemini,它拥有「视觉」和「听觉」,还有学习和推理能力。

作为谷歌迄今为止最强大、最全面的模型,在大多数基准测试中, Gemini 性能都超越了 GPT-4。

Hassabis 在发布会前接受连线杂志专访时,将 Gemini 称为「新 AI 品种」。

目前,大多数模型都通过训练单独的模块,然后将它们拼接在一起来近似多模态,不足之处在于没办法在多模态空间进行深层复杂推理。

而 Gemini 最大亮点之一就是原生多模态大模型——设计时就原生支持多模态,要具有处理不同形式数据(语言+听力+视觉)的能力;一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。

因此,Gemini 可以泛化并无缝理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频,远远优于现有(近似)多模态模型,并且它的能力在几乎每个领域都是最强的。

Hassabis 透露,谷歌 DeepMind 已经在研究如何将 Gemini 与机器人技术结合起来,与世界进行物理交互。毕竟,要成为真正的多模态还需要触摸和触觉的反馈。

这条从未被前人踏过的路,未来可能带来重大新突破。他对连线杂志表示,新的多模态模型将成为智能体、规划和推理、游戏甚至物理机器人快速创新的基础。

除了原生多模态的亮点,谷歌表示,Gemini 还是他们迄今为止最灵活的模型,能够高效地运行在数据中心和移动设备等多类型平台上。

Gemini 包括三种量级:能力最强的 Gemini Ultra,适用于多任务的 Gemini Pro ,以及适用于特定任务和端侧的 Gemini Nano。

目前Gemini 提供了三个不同版本

特别是 Gemini Nano,可以在使用特殊芯片的终端设备上运行,而不是在云端某些服务器上,这样谷歌就可以将生成 AI 引入遍布世界角落的安卓手机。

同时,在没有网络连接的情况下使用生成 AI 模型也会让用户感到安全,他们的个人数据不会离开其设备。这也是苹果多年来隐私实践的方向。

Pixel 8 Pro 在录音机应用中使用 Gemini Nano 来总结会议音频,即使没有网络连接也可以实现。

据说,Pixel 8 Pro 将是第一款运行 Gemini Nano 的智能手机。虽然谷歌已将它与 Pixel 8 Pro 的操作系统集成,但尚未将其全部功能植入 Google Assistant。

谷歌副总裁兼 Bard and Assistant 总经理 Sissie Hsiao 在新闻发布会上表示,目前正在对这一联姻进行「早期测试」。

写到这里,我们几乎可以嗅到未来在终端,谷歌势必与苹果一战。

接下来几个月,谷歌聊天机器人 Bard 将迎来重大升级 —— 使用 Gemini Pro 的微调版本来执行更高级的推理、规划、理解等任务。不久的将来, Bard 还会扩展到更多模态,支持更多种语言。

公司表示,Gemini 还将在未来几个月被引入其他谷歌产品,包括生成搜索、广告和 Chrome。

最强大版本 Ultra 的安全测试工作仍在进行中,计划将于明年推出。其在大规模多任务语言理解 (MMLU) 基准测试中得分为 90%,高于包括 GPT-4 在内的任何其他竞争对手。

不过,谷歌还没有抢尽人工智能的风头。Meta、AMD 都凑巧有了新发布。

为了不被超越,虚拟助手 Meta AI 也在昨晚有了重要更新。

最常用的功能之一 Imagine——文本到图像生成功能,现在有了「重新想象」的新能力,将聊天斗图推到新高度:

使用 Imagine 生成一张图片,你的聊天对象可以按住这张图片,通过简单文本提示进行修改,新功能会生成一张新图片。网友们可以像接龙一样不断修改图片,疯狂搞笑。

Meta 还推出了一个免费网络工具 Imagine with Meta AI ——一个在线 AI 图像生成器(https://imagine.meta.com/),可在几秒钟内创建高分辨率的 AI 图像。它使用公共 Facebook 数据进行训练。

每一次使用,生成器都会创建四张 1280×1280 像素图像,可以以 JPEG 格式保存,图像左下角有一个小小的Imagined with AI 水印。

Screenshot by Lance Whitney via Imagine/ZDNET

来自arstechnica的作品

除了文生图功能,Meta AI 的文案能力也有了提升。比如,帮忙撰写生日祝福、帖子甚至交友资料的自我介绍。

已关注

关注

重播分享

关闭

观看更多

更多

正在加载

    正在加载

    退出全屏

    视频加载失败,请刷新页面再试

    刷新

    视频详情

    Meta AI 还推出 Reels 功能。假如你在群聊中计划与朋友一起去旅行,可以要求 Meta AI 推荐最佳游览地点并分享热门景点,决定哪些景点是必去的。

    现在还能帮忙将图像从横向转换为纵向,更方便分享到文本中。

    翻开大模型竞争硬币另一面,是各家深陷的最强算力军备。

    发布会上,与 Gemini 1.0一起亮相的,还有谷歌迄今为止最强大、最高效、可扩展的 TPU 系统 — Cloud TPU v5p,专为训练尖端的 AI 模型而设计,能比 TPU v4 更快地训练大模型。

    谷歌表示,TPU 对其在 Gemini 等尖端模型上进行最大规模的研究和工程工作至关重要。

    同样是昨晚,AMD 「最强算力」芯片、专为 AIGC 和大模型场景打造的纯 GPU 产品 Instinct MI300X 加速器也隆重亮相。

    AMD 表示,与英伟达 H100 HGX 相比,Instinct MI300X 加速器在运行大语言模型推理时的吞吐量和时延表现明显高出一筹。

    AMD MI300X 人工智能加速器

    AMD CEO 苏姿丰预计到 2027 年,人工智能芯片市场将达到 4000 亿美元或更多,希望 AMD 能在该市场占据相当大的份额。

    AMD 已经与一些最渴望 GPU 的公司签约使用该芯片,包括 2023 年 Nvidia H100 GPU 的两个最大买家 Meta 和微软。

    Meta 表示,将使用 MI300X GPU 来处理 AI 推理工作负载,例如处理 AI 贴纸、图像编辑和 AI 助手。

    微软首席技术官 Kevin Scott 表示,该公司将通过 Azure 提供对 MI300X 芯片的访问。

    甲骨文的云服务也将使用这些芯片。OpenAI 表示,公司开发的 GPU 编程语言 Triton 将从接下来的 3.0 版本开始支持 MI300 等 AMD 芯片。

    参考链接

    https://about.fb.com/news/2023/12/meta-ai-updates/

    https://www.wired.com/story/google-deepmind-demis-hassabis-gemini-ai/

    © THE END

    转载请联系本公众号获得授权

    投稿或寻求报道:content@jiqizhixin.com

    相关内容

    热门资讯

    原创 五... 2025年的智能手机市场,中端价位段(2000-4000元)竞争愈发白热化,不过随着旗舰技术下放、用...
    河北石家庄:推进生物医药产业高... 中新网河北新闻5月11日电 (俱凝搏 韩晓欧)在河北省石家庄经济技术开发区,走进石家庄四药集团药物研...
    多措并举点亮长效回馈星辰 深市... 本报记者 田鹏 在科技发展的漫漫长夜中,通信行业恰似那熠熠生辉的启明星,始终闪耀在时代前沿,以不断突...
    原创 2... 2 月,全球新能源汽车市场延续了高速增长的态势,动力电池作为核心零部件的需求持续攀升。在这一背景下,...
    英伟达首款ARM超级芯片GB1... 5 月 10 日消息,科技媒体 notebookcheck 昨日(5 月 9 日)发布博文,报道称英...
    助力打造人工智能先锋城市 深圳... 深圳新闻网2025年5月11日讯(深圳商报首席记者 王海荣)2025年度深圳市训力券兑现申请已正式启...
    “第三届未来口腔生物材料前沿论... “第三届未来口腔生物材料前沿论坛” 在西安成功举办 阳光讯 (记者 郑亚雷 )5月9—10日,由香港...
    湖南先导新材料申请三氯化铱制备... 金融界2025年5月10日消息,国家知识产权局信息显示,湖南先导新材料科技有限公司申请一项名为“一种...
    李大潜:从18分逆袭到应用数学... 在中国应用数学领域,李大潜的名字如同一把“万能钥匙”——他既能在导弹轨迹方程中破解国防密码,也能蹲在...
    拓展应用场景 提供创新方案 在当今新技术突破加速带动产业变革的浪潮中,中国人工智能技术发展迅速、应用场景不断拓展。从德国的工厂、...
    星启蚌埠 箭指苍穹 蚌埠召开商... 共谋商业航天发展大计,共拓未来产业广阔蓝海。5月10日,中国·蚌埠商业航天产业发展大会在蚌埠市禹会区...
    重庆康佳光电申请弱化结构专利,... 金融界2025年5月10日消息,国家知识产权局信息显示,重庆康佳光电科技有限公司申请一项名为“弱化结...
    王兴兴透露:非常缺人 近日,在第六届上海创新创业青年50人论坛期间,宇树科技首席执行官、创始人王兴兴发表主旨演讲。 在论坛...
    填补国内空白的“蛋白酶战士”登... 十堰智造亮相北京科博会 填补国内空白的“蛋白酶战士”登场 湖北日报讯 (记者余宽宏、通讯员顾才华、...
    中山市江波龙电子申请电流校准专... 金融界2025年5月10日消息,国家知识产权局信息显示,中山市江波龙电子有限公司申请一项名为“电流校...
    AI账号成起号新套路,多手段绕... 随着人工智能技术的普及,人工智能生成内容技术也就是AIGC技术正在改变社交媒体生态。有了创意,它能帮...
    “人形机器人”高端闭门会将于5... 新京报贝壳财经讯(记者张晗)全球首个人形机器人半程马拉松点燃的产业热潮尚未褪去,世界机器人大会及全球...
    西湖论剑|“让安全更智能 让智... 5月9日,“让安全更智能 让智能更安全” 西湖论剑 AI + 新品发布会于安恒大厦举行。安恒信息深度...
    来了!全国首个科学高中联盟成立... 最近 一个辐射全国教育界的重磅消息传来! 深圳科学高中携手 北京、上海、重庆等地的“科技校霸”们 在...
    字古以来丨最早的“母”字长什么...   甲骨文是迄今为止中国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉。借助AI...