被OpenAI“封号”,字节跳动在打什么算盘?
创始人
2024-01-09 02:00:35
0

原标题:被OpenAI“封号”,字节跳动在打什么算盘?

文|阿尔法工场

眼看着2023就要过去了,没想到年底又曝出一个大瓜。

近期据《The Verge》报道:

字节跳动因使用ChatGPT的API,来开发自家大模型,被OpenAI“封号”了。

尽管在事后,字节澄清,表示自己此举“仅为测试”,且早已勒令停止。

然而,这终归是一件让人浮想联翩的事……

字节被封号的背后,打的究竟是什么算盘?

01 字节想要什么?

虽然在《The Verge》报道中,没有明确指出字节究竟是怎么用OpenAI的API来开发自身大模型的,但可能的训练路径来说,用一个大模型(例如OpenAI的GPT)来训练另一个大模型的过程,往往有以下几种。

其中一种,就是“师傅带徒弟”的模式。

想象一下,师傅(已有的大模型)在处理各种任务时,会生成一些输出(例如文本、图像等)。徒弟(新的大模型)会观察师傅的行为,尝试模仿这些输出。

这样,徒弟就能学会如何处理类似的任务。在实际应用中,这可以通过让新模型学习旧模型生成的数据来实现。

还有一种方式,就是通过联合训练,让“师傅”和“徒弟”一起处理任务。

在实际应用中,这可以通过让两个模型共享一些层次或参数来实现,新旧模型就可以互相学习、互相帮助,共同完成任务。

从技术可行性来判断,在这次事件中,字节使用的更有可能是第一种方法。

即利用了OpenAI API生成的数据作为训练数据。

因此,在这次风波中,字节真正想要的,是ChatGPT生成的高质量语料数据。

而这样的数据,也是任何一个训练中的大模型,最渴望的“香饽饽”。

但由于之前OpenAI的协议中,已明确表示禁止用其大模型去开发竞品,因此,字节被OpenAI“封号”也是一种必然。

问题是:作为一家实力雄厚的大厂,字节理应不缺相应的人手和资金,去做这些数据爬取、语料标注方面的工作,为何要走这一步“险棋”呢?

02 为何犯险?

其实,在现阶段的大模型赛道上,字节缺的不是人才和资金,而是时间。

与百度、讯飞等国内大厂相比,字节真正入局大模型的时间,可以说是相当晚了。

从时间上看,字节真正推出第一款大模型豆包的时间,是今年的8月中旬,而那时,大模型之火已经燃烧了近半年之久。

任何真正想入局大模型的玩家都知道,模型层的竞争,是有时间窗口的。

在大模型领域,先进入市场的企业往往能够积累更多的用户、数据和经验,从而形成竞争优势。后来者要想迎头赶上,需要付出更多的努力和成本。

尽管8月上线的豆包,让字节勉强赶上了模型层的晚班车,但从性能和定位上看,那更像是一个“尝鲜”的应景之作,无法真正与字节现有的业务相契合。

作为一个在移动互联网时代制造了抖音这类爆款的大厂,字节真正想要的,是像文心一言那样更通用、更全能,且能整合或嵌入进自身的各类APP中的大模型。

这才有了后来字节的“种子计划”——计划在今年年底前,打造与 GPT-3.5 性能相匹敌的Seed 大模型。

问题是,大模型的训练,终归不是件一蹴而就的事。

标注数据、提取优质语料等等一系列繁琐的前期工作,都需要时间。

那如何在有限的、紧迫的时间内,搜集到足够多的高质量语料数据?

一个最靠谱的办法,就是直接使用那些已经验证过的,成熟度较高的模型的数据,例如ChatGPT。

03 模型层的窗口期

其实,不只是字节,即使是身处一线的AI玩家谷歌,也为了“急于求成”,做出了类似小动作。

本月月初,谷歌曾失望地宣布,被其寄予厚望的大模型Gemini,由于无法较好地处理非英语领域的查询任务,而被推迟了上线。

可鬼使神差的是,之后没过几天,谷歌就来了个回马枪,在12月6日郑重推出了Gemini,似乎之前提到的“缺陷”已经不是问题。

后来,网友经过测试才发现,原来谷歌早就从百度的文心一言那里找到了“解决之策”。

经过微博大V@阑夕夜等众多网友的测试,在与Gemini-Pro用中文交流时,如果问“你是谁”,Gemini-Pro上来就回答:我是百度文心大模型。

如此状况,让人纷纷猜测,是谷歌直接用了百度文心一言的中文语料进行训练。

为了反超GPT-4,谷歌真是赶鸭子上架了。

不过,从长远来看,这种大厂互相薅羊毛的行为,终归是一种暂时的现象。

毕竟,经过这么几回“露馅”后,各个大厂一定会对自家的数据看得更严,更死。

但即便如此,这种互相套用数据的行为,也让众多用户、投资人不禁暗自嘀咕:如果各个模型之间的数据,在技术上能轻易地互相套用,那将来除了ChatGPT等少数顶流外,还有哪些模型是有“真材实料”的?

这样的担忧背后,其实有一个更重要的前置性问题,那就是:我们为什么需要那么多雷同的大模型?

毕竟,人类的语料数据,终归是有限的,顶流团队的模型(如ChatGPT)已经挖走了绝大部分,剩下的那一小撮专有数据,也早已被各个垂直行业瓜分完毕。

在模型层创业已近尾声的今天,比起数据,更能拉开差距的,是侧重点不同的训练方式,以及由此打造的各种功能。

而这样成为了用户能否容忍这种“套用”行为的关键。

在这点上,谷歌的Gemini给出的答卷,是更强的原生多模态功能(有夸大之嫌)。

而字节的Seed大模型,将来能否逆风翻盘,赢得用户的信任,也得看有没有“一美遮百丑”的亮点。

相关内容

热门资讯

一文速览谷歌2025开发者大会... 图片来源:界面图库 界面新闻记者 | 宋佳楠 北京时间5月21日,一年一度的谷歌开发者大会(G...
繁凯电镀取得电镀模具密封结构专... 金融界2025年5月20日消息,国家知识产权局信息显示,温州市繁凯电镀有限公司取得一项名为“一种电镀...
懂AI会“飞行”,这个专业要培... ①华南理工大学未来技术学院学生正在调试无人机设备。 ②华南理工大学未来技术学院学生在实验室开展试验...
山德科技取得一种通讯电子精密模... 金融界2025年5月20日消息,国家知识产权局信息显示,河源市山德科技有限公司取得一项名为“一种通讯...
善用优势,以“新”促兴 本报记者 汪灵犀 文/图 在香港新界吐露港沿岸,一颗巨大的“金蛋”是香港科学园的地标性建筑。 “从...
雷军更新抖音介绍小米玄戒O1芯... 5月20日,在抖音停更近两个月后,雷军发布视频介绍小米玄戒O1芯片。 雷军表示,小米即将于5月22...
扬州智通取得螺丝自动排列供应装... 金融界2025年5月20日消息,国家知识产权局信息显示,扬州智通自动化设备有限公司取得一项名为“一种...
微软Build大会加速Wind... 美东时间5月19日周一,微软年度开发者大会Build会议拉开帷幕。会上,微软正以前所未有速度将Win...
谷歌搜索AI模式革新上线:Ge... 谷歌近日宣布了一项重大更新,正式在其搜索产品中引入了AI模式。这一创新功能标志着谷歌搜索向更加智能、...
被逼急了?据称苹果准备放出AI... 财联社5月21日讯(编辑 赵昊)知名科技记者马克·古尔曼(Mark Gurman)撰文表示,苹果公司...
韦布望远镜探测到迄今最大规模星... 新华社华盛顿5月20日电 一个国际天文团队日前利用美国航天局的詹姆斯·韦布空间望远镜观测到的数据,展...
南京佳乐申请船体自动喷涂机器人... 金融界2025年5月20日消息,国家知识产权局信息显示,南京佳乐船舶设备有限公司申请一项名为“一种船...
原创 从... 有网友提问:在那恐龙统治地球的时代人类是不是就已经存在? 这个问题很简单: 人猿总科的分类还远没有达...
江丰电子获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示江丰电子(300666)新获得一项实用新型专利授权,专利名为“...
视觉分析丨唐·伯吉斯(ASC)... 搜寻地外文明研究所(SETI)的科学家艾莉·爱罗维(茱迪·福斯特-Jodie Foster 饰)正在...
《枸杞》专著在宁夏银川首发 填... 5月19日由宁夏农林科学院牵头编撰的百万字权威著作《枸杞》在银川正式出版发行。这部历时3年、凝聚30...
磁盘删除的文件怎么恢复?4种方... 在日常使用电脑时,意外删除文件或清空回收站是常见的操作。这时候,很多人会担心这些文件是否能够恢复?磁...
深圳计算科学研究院助力产业数字... 深圳计算科学研究院成立6年来,始终坚持以自主创新为根基,解决产业实际需求为导向,不仅在数据库系统、数...
谷歌Imagen 4文生图AI... 近期,谷歌在其人工智能领域再度迈出重要一步,推出了Imagen 4这一全新版本的文生图AI模型。据官...
松辽川新材料取得一种仿木式生态... 金融界2025年5月20日消息,国家知识产权局信息显示,吉林省松辽川新材料科技有限公司取得一项名为“...