能读懂你的喜怒哀乐 OpenAI发布免费大模型“GPT-4o” | 科技观察
创始人
2024-05-14 15:20:15
0

原标题:能读懂你的喜怒哀乐 OpenAI发布免费大模型“GPT-4o” | 科技观察

封面新闻记者 边雪 马晓玉

科技观察

既不是新的搜索引擎,也不是GPT-4.5或GPT-5。

万众期待中,北京时间5月14日凌晨,OpenAI在首次“春季新品发布会”上拿出了“杀手锏”——新一代旗舰生成模型GPT-4o和桌面程序。根据OpenAI官方网站介绍,GPT-4o中的“o”代表Omni,指的是该模型处理文本、语音和视频的能力,也就是“全能”的意思。

据悉,GPT-4o将在接下来的几周内“迭代”地推出到公司的开发者和消费者产品中。OpenAI首席技术官Mira Murati表示,GPT-4o提供了“GPT-4级”的智能,但在多种模态和媒体上改进了GPT-4的能力。

“GPT-4o可以跨语音、文本和视觉进行推理,”OpenAI的CTO米拉·穆拉蒂(Mira Murati)在旧金山办公室的直播演示中说道。“这非常重要,因为我们正在关注我们与机器之间的交互未来。”

OpenAI之前的“领先”、“最先进”的模型是GPT-4 Turbo,它是通过对图像和文本的结合进行训练的,能够分析图像和文本来完成任务,例如从图像中提取文本,甚至描述图像内容。

作为新一代旗舰模型,GPT-4o把AI工具的使用门槛降到了更低的程度,不仅比上一代速度快两倍,能实现无延迟实时对话,而且用户不用注册,功能全部免费。

GPT-4o。(图源:OpenAI官网)

01

GPT-4o:更快更准确懂用户

极大地改进了OpenAI的AI聊天机器人ChatGPT的体验。该平台长期以来一直提供了语音模式,使用文本转语音模型转录聊天机器人的回复,但是GPT-4o使其功能更加强大,让用户能够更像与助手交互。

例如,用户可以向由GPT-4o驱动的ChatGPT提问,并在ChatGPT回答时打断。OpenAI表示,该模型具有“实时”响应性,甚至可以捕捉用户声音中的细微差别,以生成“一系列不同情感风格”的声音(包括唱歌)。

GPT-4o还提升了ChatGPT的视觉能力。给定一张照片或者桌面屏幕,ChatGPT现在可以快速回答相关问题,涉及的主题从“这段软件代码发生了什么?”到“这个人穿的是什么牌子的衬衫?”

Murati表示,这些功能将在未来进一步发展。“尽管目前GPT-4o可以查看不同语言的菜单照片并进行翻译,但未来,该模型可能使ChatGPT能够‘观看’直播的体育比赛并向您解释规则。”

“我们知道这些模型变得越来越复杂,但我们希望交互体验实际上变得更加自然、简单,您不需要关注UI,而只需专注于与ChatGPT的合作,” Murati说道。“在过去的几年中,我们一直致力于改善这些模型的智能…但这是我们在易用性方面真正迈出的巨大一步。”

封面新闻记者在OpenAI官网注意到,GPT-4o在多语言方面更加强大,性能提升了约50种语言。此外,在OpenAI的API和Microsoft的Azure OpenAI服务中,GPT-4o的速度是GPT-4 Turbo的两倍,价格是其一半,且速率限制更高。

自发布之日,GPT-4o可在ChatGPT的免费版本中使用,并提供给OpenAI的高级ChatGPT Plus和Team计划订户,具有“5倍更高”的消息限制。(OpenAI指出,当用户达到速率限制时,ChatGPT将自动切换到GPT-3.5,这是一个较旧且功能较弱的模型。)以GPT-4o为基础的改进的ChatGPT语音体验将在未来一个月左右的时间内为Plus用户提供alpha版,并配备企业专注的选项。

GPT-4想要实现和人的对话需要通过三步来实现:先把语音转换为文字,再生成回复文本,最后再转成语音。根据用户选择模型的不同,这个过程的平均延迟高达2.8秒 (GPT-3.5)和5.4 秒(GPT-4),对着手机屏幕等回复,跟GPT聊过天的朋友应该都有类似的体验。

而且在语音转文字再转语音的过程中,很多信息损失了,GPT无法获得说话人的音调,也无法收取背景音,如果有多个人一起说话更是灾难性的场景。

OpenAI的CTO米拉·穆拉蒂与同事介绍GPT-4o(图源:直播截图)

“我们跨文本、视觉和音频端到端地训练了一个新模型,”OpenAI写道,“这意味着所有输入和输出都由同一神经网络处理。”现在的GPT-4o可以在最短232毫秒内响应对话,平均响应时间320毫秒,和人类的反应速度几乎一样,爱跟ChatGPT聊天的朋友终于可以从微信语音模式切换到日常交流模式了。

5月14日,封面新闻记者使用了GPT-4o进行提问,相较于GPT-3.5,其回答速度更加迅速,几乎是“脱口而出”,答案梳理也更加全面。

值得注意的是,GPT-4o API声音功能仅适用于部分用户,OpenAI称出于滥用风险考虑,计划首先在未来几周向“一小部分可信赖的合作伙伴”提供对GPT-4o新音频功能的支持。

在更懂用户上,GPT-4o甚至能通过呼吸来辨别你的情绪。

发布会的最后一个环节是实机演示。OpenAI研究员Marc Chen和Barret Zoph一起展示了GPT-4o的“魔力”。

在第一段对话里,Chen对GPT说,自己有点紧张,然后开始急促地呼吸。GPT识别到了他呼吸的声音,说,别紧张,你喘得像个吸尘器,深呼吸,再吐气。接着GPT开始指导Chen怎么深吸慢呼平复心情。

无论是在听环境音还是即时反馈上,GPT-4o的表现都十分让人惊喜:它可以同时完成输入和输出,在分析用户喘气声后进行呼吸指导。

第二个demo里,Chen让GPT给Zoph讲个睡前故事哄他入睡,Chen反复打断GPT的讲述,问它能不能讲得更刺激点,最后,GPT跟用非常迪士尼的方式唱出了一个故事。

OpenAI研究员Marc Chen和Barret Zoph一起展示了GPT-4o。(图源:直播截图)

02

OpenAI 抢跑谷歌?

巧合的是,当地时间5月14日,OpenAI 发布更新的第二天,正是谷歌一年一度的“Google I/O”大会。业内人士指出,这是OpenAI不希望谷歌的技术大会抢了该产品的风头。

事实上,早在今年2月,就有媒体报道称,OpenAI正在开发一款由Chat gpt驱动的搜索引擎,它很有可能会彻底改变网络搜索,并撼动谷歌对于全球搜索市场主导地位。

许多用户表示,现在更多的是使用OpenAI 进行知识的深入探索而非Google。

谷歌也一直担心竞争对手的AI服务可能对其搜索业务构成威胁,因为该公司的大部分收入来自数字广告销售,每年通过搜索业务创造超过2200亿美元的广告收入。

因此,外界一直猜测OpenAI 本次春季更新将剑指搜索引擎,不过没多久便被总裁阿尔特曼辟谣,表示并非gpt-5,也不是搜索引擎。

GPT-4o 在 LMSys 领域测试的表现。(图源:截图)

03

新的Siri 将来自 OpenAI?

据外媒报道,苹果公司已与 OpenAI 达成协议,在 iPhone 上使用其技术,这是将人工智能功能引入其设备的更广泛努力的一部分。

据悉,在苹果公司软件工程高级副总裁 Craig Federighi 和苹果公司机器学习与人工智能战略高级副总裁 John Giannandrea 花了数周时间测试 ChatGPT 后,发现 Siri 已经过时,苹果公司正计划将生成式人工智能作为一个支柱项目,将把生成式人工智能引入 iPhone。

苹果CEO蒂姆·库克也承认,苹果正在对生成式人工智能领域进行大量投资。他表示,苹果今年将在生成式人工智能领域“开辟新天地”。

有知情人士表示,苹果公司与OpenAI一直在敲定在苹果下一代 iPhone 操作系统 iOS 18 中使用 ChatGPT 功能的协议条款。苹果同时还与谷歌就授权Gemini聊天机器人进行了谈判。这些讨论尚未达成协议,但仍在进行中。

相关内容

热门资讯

金山办公不想走微软的老路 作者 | 刘宝丹 编辑 | 黄昱 作为中国版的“微软Office”,金山办公多年来和微软在产品形态上...
原创 外... 家人们,咱都知道月球有个始终背对地球的 “神秘面”,这也让各种关于月球背面的奇妙传言甚嚣尘上,其中最...
扬州浩立光源取得灯丝质量检测装... 金融界2025年7月29日消息,国家知识产权局信息显示,扬州浩立光源科技有限公司取得一项名为“一种灯...
激活智算潜能:构建高效、普惠、... 一、引言:从算力焦虑到资源浪费的悖论 随着人工智能、大模型、物联网等新技术不断推进,算力作为数字经济...
美俄航天局高层即将碰头,共商国... 近日,据央视新闻报道,美国国家航空航天局(NASA)与俄罗斯航天局即将迎来一次重要会晤。NASA临时...
峰尚视讯取得一种电视支架专利,... 金融界2025年7月29日消息,国家知识产权局信息显示,台州市峰尚视讯科技有限公司取得一项名为“一种...
怡合达获得实用新型专利授权:“... 证券之星消息,根据天眼查APP数据显示怡合达(301029)新获得一项实用新型专利授权,专利名为“一...
进军具身智能领域 科沃斯集团拟... 央广网北京7月29日消息(记者 齐智颖)央广财经记者自科沃斯集团方面获悉,7月28日,该集团“机器人...
星空有约|8月“星空剧场”的节... 8月“星空剧场”的节目单新鲜出炉了,有啥看点?细看这份节目单,既有年度最小上弦月和年度最大下弦月,也...
凌钢股份获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示凌钢股份(600231)新获得一项实用新型专利授权,专利名为“...
深圳影像双雄大乱斗:大疆做全景... 大疆、影石这两家在各自领域已“一统天下”的企业,不约而同地开始向对方所擅长的领域发起进攻。 2025...
AI,破解考古界难题的“超级武... 图片说明: 图片说明: 深度学习技术应用于研究青铜器铸造技术的示意图 (受访者提供) 当尖端人工智能...
中环海陆获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示中环海陆(301040)新获得一项实用新型专利授权,专利名为“...
聚焦WAIC 2025,天翼云... 在WAIC 2025举办期间,2025世界人工智能大会·中国电信人工智能生态论坛在上海举行。本次论坛...
长安先导:高原之上筑高峰 ▲长安先导生命科学产业创新中心。  (本组图片均由长安先导产业创新中心提供) 科研人员在工作中。 ...
国产AI芯片独角兽,大动作 7月27日,在2025世界人工智能大会“芯节点·新突破——协同创新聚力 加速智算破局”主题论坛上,国...
2025硬核芯云展览:泰芯半导... 由芯师爷主办的“2025硬核芯”评选活动火热进行中,现以“云展览”的方式为您全方位展示中国芯产品及企...
外媒:俄国家航天集团总经理访美... 【环球网报道】综合俄新社、路透社等媒体7月29日报道,俄罗斯国家航天集团总经理德米特里·巴卡诺夫已抵...
苏州铂玛新材料取得用于物料散热... 金融界2025年7月28日消息,国家知识产权局信息显示,苏州铂玛新材料有限公司取得一项名为“一种用于...
厦门新声科技取得具有阻尼结构的... 金融界2025年7月29日消息,国家知识产权局信息显示,厦门新声科技有限公司取得一项名为“一种具有阻...