OpenAI的哪个对手能掀翻牌桌?
创始人
2024-06-21 22:21:43
0

出品|虎嗅科技组

作者|齐健

编辑|苗正卿

头图|MidJourney

当地时间6月19日,Anthropic发布了Claude 3.5 Sonnet,这是Claude 3.5系列模型的首个版本,Anthropic在官宣博文中提到,新模型在智能、速度和成本效率方面都取得了显著提升,并且在多个评估中超越了同类模型和 Claude 3 Opus。

在视觉模型方面,Claude 3.5 Sonnet 也有显著提升,特别是在需要视觉推理的任务上,如解释图表和图形。此外,它能够从不完美的图像中转录文本,在零售、物流和金融服务等的票据业务中很有应用前景。

目前,Claude 3.5 Sonnet可以在 Claude.ai 和 iOS 应用上免费使用,订阅了 Claude Pro 和 Team 计划的用户,可以获得更高的使用限额。Claude 3.5 Sonnet 也可以通过 Anthropic API的形式在Amazon Bedrock等云服务中获得,价格为每百万输入令牌 3 美元,每百万输出令牌 15 美元,具有 200K 令牌的上下文窗口。

Anthropic此次发布中,虽然提及了模型能力、速度、成本,以及多模态等方面的升级。然而细看他们公布的评测分数,其实与GPT-4o等模型的差距非常之小。最大的新意,似乎是全新的Artifacts功能。

Artifacts允许用户在与 Claude 对话的同时,直接在对话旁边编辑和构建 Claude 生成的内容,这标志着 Claude 从单纯的对话式 AI 向协作工作环境的转变。

虽然Anthropic没有放出大量Artifacts功能的演示,但是公布新模型之后,Claude.ai第一时间上线了全新模型和功能的试用,目前网上已经出现了大量真实用户的评测体验。相比于GPT-4o的实时对话等功能,Artifacts未必更加惊艳,但却触手可及。

作为一款模型内的应用功能,Artifacts的上线,似乎也意味着Anthropic正准备从“卷模型”的牌桌站起来,在模型产品、模型功能的维度上,跟OpenAI掀桌子。

Artifacts是什么?

Anthropic的官方博文中对Artifacts的介绍并不多,不过从目前的测试来看,这项功能很可能是Claude 3.5,以及未来一段时间中最重要的功能之一。

Artifacts生成的内容块,如代码、文档或可视化,会直接出现在用户对话旁边的专用窗口中。

以分析英伟达股票为例,首先打开Artifact这个实验性选项。

打开Artifact这个实验性选项

输入prompt:

我要分析英伟达这支股票,你先帮我想一下如何分析,而且应该变化要有对比,比如苹果和微软;

你应该删除一些重要性没那么强的指标,而应该关注核心的反应关键变化的指标,特别是有先行指标特征的;

很好,现在用数据可视化形式;

需要真实的数据,时间应该是2010年开始到现在,而且数据可视化应该可以翻页,每个页面是3家公司的单独数据看板;

把数值也标上去。

输出结果

除了股票分析之外,Artifact还可以直接生成小游戏。

小游戏生成

“Claude3.5的新功能,类似给人的大脑上了核磁共振能考察运行的内容数据和分析特征了。”大语言模型研究专家祝韬告诉虎嗅,Artifacts功能和之前Anthropic一篇研究论文《Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet》有关。

祝韬分析认为,Artifact功能的开发直接受益于Anthropic团队对模型内部特征的深入理解,发现某些特征的激活如何影响Claude的输出偏好。

例如,多模态输出:对模型处理不同类型信息(文本、代码、图像描述等)的特征的理解,可能促进了Artifacts支持多种输出类型的能力;对模型如何在内部表示和关联概念的理解,可能提高了Claude在Artifacts中保持上下文一致性的能力。

简而言之,Artifacts功能可以被视为对Claude内部工作原理深入理解的实际应用。它展示了如何将对AI模型内部机制的研究转化为实用的、面向用户的功能。

顶级大模型进入应用时代

相比于Gemini 1.5和GPT-4o,Claude的优势在于长文本输出,不过关注长文本能力似乎使得Claude在文风跟随上表现一般,仍需要一些解码技术的支持。此外,Claude 3.5的数学能力似乎仍不如GPT-4o。

OpenAI的首席技术官Mira Murati最近在她的母校达特茅斯工程学院的一次访谈中透露,下一代 GPT(GPT-5)有望在“一年半内”问世。她还提到,下一代模型在特定任务方面将拥有“博士”级别的智能。

GPT-4o在模型能力上有限的提升,再加上GPT-5一推迟就是一年半,不禁让人猜想业内顶流们在模型研发上是不是遇到了瓶颈。例如,训练更大规模的模型需要更强大的计算资源和更复杂的算法设计,而这些都不是短期内能够轻易解决的。

此外,训练大型语言模型需要更多的计算资源、电力消耗以及数据获取和处理的费用。这些成本不仅是经济上的负担,也在实际操作中增加了难度。进一步提升模型能力,需要更大规模、更高质量的数据。这类数据的获取和处理也是一个巨大挑战。

由此,顶流大模型们都开始将研发重点逐步转型功能、应用,以及商业化场景。

Anthropic官宣博文中提到,公司还在开发新的功能和模式,以支持更多商业用例,并探索如何使 Claude 能够根据用户的偏好和历史记录来提供更加个性化和高效的体验。

从GPT-4o的实时对话,Claude3.5的Artifacts功能,以及Gemini与谷歌生态的深度融合,似乎可以看出,AI大模型在应用和功能方面的研发和升级更加容易。

大模型在技术基础上已经相对成熟,许多核心算法和架构也经过了广泛的研究和优化。因此,基于这些现有技术进行应用层面的创新和改进相对更加容易。例如,GPT-4o 的改进可能更多是基于已有的 GPT-3 和 GPT-4 架构进行优化和调整。

应用和功能的研发通常是由具体用户需求驱动的。用户和企业在实际使用过程中会反馈出具体的问题和需求,这为研发团队提供了明确的改进方向。例如,Claude 3.5 的 Artifacts 功能就是为了满足用户在生成和编辑独立内容块时的需求,从而增加了实际应用的灵活性和价值。

应用和功能的研发可以通过快速迭代来实现。相比于底层模型能力的提升,应用层面的改进可以通过不断试验和调整快速实现。例如,Gemini 与 Gmail 的结合,可以通过逐步集成和优化,快速提升用户体验和功能实用性。

AI大模型在不同应用场景中的表现差异很大,不同场景对模型的需求和要求也不同。这种多样化使得开发者可以针对特定场景进行优化和改进,从而提升模型在该场景下的应用效果。例如,GPT-4o 在特定任务上的表现优化,Claude 3.5 的 Artifacts 功能,以及 Gemini 在邮件服务中的集成,都是基于特定应用场景的创新。

在应用和功能研发中,模块化和组合创新非常重要。通过将不同的技术模块进行组合和创新,可以实现新的功能和应用。例如,Claude 3.5 的 Artifacts 功能就是通过对模型内部特征的理解和利用,实现了多种内容类型的生成和编辑。

AI大模型最终还是得看技术和市场的契合度。”波形智能创始人兼CEO姜昱辰告诉虎嗅,谷歌的优势在于其庞大的数据量和良好的生态系统,因此Gemini的使用频率反而比GPT更高,毕竟每天都要使用Gmail和Google Docs。

在大模型未来的市场化和发展方面,姜昱辰更看好谷歌,她认为尽管GPT-4o在ChatGPT产品基础上有优势,但谷歌有数据和应用两个绝对优势。

正在改变与想要改变世界的人,都在虎嗅APP

相关内容

热门资讯

原创 突... 巨大火球飞过日本上空,专家称划过日本夜空火球或为流星 这事儿听着都觉得神奇! 巨大火球,划过日本...
山西国环动力取得微纳米臭氧催化... 金融界2025年8月20日消息,国家知识产权局信息显示,山西国环动力环保科技股份有限公司取得一项名为...
绿的谐波:行星滚柱丝杠产品已步... 8月20日,绿的谐波在互动平台表示,公司的行星滚柱丝杠产品已步入小规模量产阶段。在机器人领域,公司正...
美格智能跌1.04%,成交额6... 来源:新浪证券-红岸工作室 8月20日,美格智能跌1.04%,成交额6.70亿元,换手率7.08%,...
GPU王座动摇?ASIC改写规... 文 | 半导体产业纵横 在ASIC市场,近日听到的一些言论是相悖的。 “全球众多ASIC项目中,9...
泰安宁阳:彰显服务品牌,推动客... 宁阳县以建设智慧物流体系破题,通过提升设施、建强机制、汇聚合力、数字赋能,打造了以智慧物流园区为龙头...
3年,2500家企业入驻! 利用机器人的 “独门技艺”筛选菌株,他们不断拓展着自己的微生物“科技版图”;带着让“汽车飞上天际”的...
阿为特公布“一种气动式弹性毛刺... 天眼查APP显示,近日,上海阿为特精密机械股份有限公司申请的“一种气动式弹性毛刺去除装置及其使用方法...
安徽鸿一取得十字柱组立机专利,... 金融界2025年8月20日消息,国家知识产权局信息显示,安徽鸿一智能装配有限公司取得一项名为“一种十...
深入推进“人工智能+” 赋能产... 来源:滚动播报 (来源:经济参考报) 人工智能作为引领新一轮科技革命和产业变革的关键驱动力,正深刻影...
特别关注|双燃料发动机,双重机... 随着2025年1月FuelEU Maritime法规的生效,以及国际海事组织(IMO)2050年净零...
原创 小... 我们都知道,目前在全球市场国产手机可谓是一骑绝尘,几乎干掉了所有的国外品牌。不过国产尝试依然面对一个...
企业微信5.0正式发布 推出三... 8月20日,企业微信团队举行了2025新品发布,企业微信5.0正式发布,新版本全面融合AI能力,推出...
淘宝内测AI搜索,AI电商真的... 经观评论 陈白 | 文 2025年国内互联网大厂们争夺大半年的AI搜索赛道,迎来了电商新玩家——淘...
封面科技参编 新闻行业大规模预... 新闻行业大模型预训练模型系列标准 图源:新华社 近日,由中国新闻技术工作者联合发布,中国标准出版社出...
加速关键核心技术验证迭代,20... 关于开展2025年 重点应用场景项目申报的通知 各有关单位: 为推动科技新场景开放,加速关键核心技术...
让机器人“能听会懂” 绵阳揭开... 中新网四川新闻8月20日电 (王泽宇 尹秦)8月19日,中国(绵阳)科技城数字经济产业园内,一台背着...
中创智领取得一体机调节立柱装置... 金融界2025年8月20日消息,国家知识产权局信息显示,中创智领(郑州)工业技术集团股份有限公司取得...
星虹科技取得节能永磁无刷直流电... 金融界2025年8月20日消息,国家知识产权局信息显示,江门市星虹科技有限公司取得一项名为“一种节能...
阿里Qwen-Image模型:... 在科技日新月异的今天,人工智能领域再次迎来重大突破。阿里巴巴近期发布了Qwen-Image,这一图像...