字节跳动的大模型之路怎么走
创始人
2024-01-09 07:12:50
0

原标题:字节跳动的大模型之路怎么走

一向低调的字节跳动大模型走上了风口浪尖。近日,有媒体报道称,字节跳动在使用OpenAI技术开发自己的大语言模型,违反了OpenAI服务条款,因此暂停了字节跳动的账户。对此,字节跳动回应称,GPT的API服务仅在初期探索时用于较小规模的实验性项目。字节跳动与OpenAI的风波背后,不难看出“百模大战”的激烈竞争仍暗流涌动。

冻结

“字节跳动使用OpenAI的技术,用以打造自己的大模型。”12月16日,科技媒体TheVerge发布了这样一篇报道。随后,OpenAI发言人尼克·菲利克斯确认,字节跳动账户已被暂停。

12月17日,字节跳动回应北京商报记者称,公司在使用OpenAI相关服务时,强调要遵守其使用条款。“我们也正与OpenAI联系沟通,以澄清外部报道可能引发的误解”。

服务条款是这场风波的核心。作为商业化的重要一步,今年3月,OpenAI开放API(应用程序编程接口),允许第三方开发者通过API将ChatGPT集成至他们的应用程序和服务中。但OpenAI的服务条款中曾明确提及,OpenAI提供的模型能力,不允许用来被“开发任何与其产品和服务形成竞争的AI模型”。

根据字节跳动的回应,今年初,技术团队刚开始进行大模型的初期探索时,有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在4月公司引入GPT API调用规范检查后,这种做法已经停止。

据介绍,早在今年4月,字节大模型团队已经提出了明确的内部要求,不得将GPT模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用GPT时遵守服务条款。

9月,字节跳动内部又进行了一轮检查,采取措施进一步保证对GPT的API调用符合规范要求。例如分批次抽样检测模型训练数据与GPT的相似度,避免数据标注人员私自使用GPT。

“未来几天里,我们会再次全面检查,以确保严格遵守相关服务的使用条款。”字节跳动如此说道。但对于账号的恢复时间计划,截至记者发稿,暂未收到回复。

接口

一个是风靡全球的互联网新贵,一个是新一轮人工智能大潮的领头羊,双方本就自带流量,以这种形式产生交集,自然引发诸多讨论。

“在案例中,API可狭义地理解为一种商业用途的接口服务”,在接受北京商报记者采访时,无界AI联合创始人马千里解释称,一款应用提供服务可以分为两种方式,一种是通过应用自身(比如App)完成,另一种就是用API提供接口服务,从而将来自应用的要求接入到后端,可实现批量操作,实现商业化落地。

马千里补充称,包括计价模式、使用权限等在内,API很多服务都是和传统的C端服务不一样的。正常来讲,大模型企业很支持以API的形式完成商业化,“但若要用来训练自己的竞争对手的模型,那肯定就不愿意了”。

凭借着Llama 2的成功,Meta冲出了OpenAI的闭源重围,扛起了大模型开源的大旗。饶是如此,Meta也在其软件协议中做了保留,比如强调不得将Llama用于改进任何其他大型语言模型,但Llama 2或其衍生作品除外。

此前,创新工厂董事长兼CEO李开复旗下的“零一万物”大模型也被质疑套壳Llama。不久前,零一万物再度发声表示,公司内部经过几个周的国际国内法律研判,已经确认完全不涉及套壳、抄袭,并给出了进一步的澄清。

马千里解释称,“套壳”并不是法律上的禁止行为,很多时候只要符合供应商的协议,后者其实是鼓励套壳以实现商业化的。这一行为之所以会被诟病,可能是有些企业宣传存在偏差。

北京市社会科学院副研究员王鹏也对北京商报记者提到,自从OpenAI的技术路径得到广泛应用,国内、国外的一些厂商以及相关企业都在进行扎实的跟进,也有部分企业选择站在巨人的肩膀上进行二次开发。

“但大模型的训练确实需要大量资金和资源的投入,在这个过程中也可能存在着鱼龙混杂的情况,有些企业声称自己在做开发,本质是套壳。”王鹏称。

追赶

以服务条款为中心,OpenAI和字节跳动的矛盾背后,是全球大模型的激烈竞赛。截至今年10月,我国10亿参数规模以上的大模型厂商及高校院所共计254家,分布于20余个省市/地区。

工业和信息化部赛迪研究院近日的数据显示,今年,我国生成式人工智能市场规模有望突破10万亿元。专家预测,2035年生成式人工智能有望为全球贡献近90万亿元的经济价值,其中我国将突破30万亿元,占比超过四成。

今年6月的世界互联网大会数字文明尼山对话中,百度创始人、董事长兼首席执行官李彦宏说,无论从技术趋势,还是产业应用来看,大模型都绝不是昙花一现的风口,而是影响人类发展的重大技术变革,是拉动全球经济增长的引擎,是绝对不能错过的重大战略机遇。

在大模型的激烈竞争中,字节跳动的步伐并不快。公开资料显示,今年6月,字节跳动火山引擎发布大模型服务平台火山方舟;8月,字节跳动自研的通用大模型“云雀”通过《生成式人工智能服务管理暂行办法》。同月,字节跳动基于云雀大模型的AI对话产品“豆包”正式开启对外测试。

谈及大模型的进展,字节跳动相关负责人向北京商报记者表示,云雀大模型目前还处于初级阶段,与国外公司还有比较大的差距。

字节跳动在加速追赶。11月末,节跳动成立新AI部门Flow。公开报道显示,Flow是字节跳动旗下AI创新业务团队,目前已在国内和海外分别上线了豆包和Cici两款产品,还有多个AI相关创新产品在孵化中。业内普遍认为,这也许是字节跳动在收缩游戏业务的同时,加码AI应用开发的信号。

“和其他大厂相比,字节跳动可能会在多模态领域占有更多的优势”。马千里认为,在语言模型方面,与以搜索引擎起家的企业相比,字节跳动掌握的数据资源并不具有明显优势。字节跳动的数据大多是多模态数据,团队也相对顶尖,或许可以在这方面打出差异化。

王鹏也提到,字节跳动做大模型的优势就是平台大、资源多、本身应用场景多元,能够形成较好的商业模式,而且字节跳动的日活高、内容产出多、数据量大,也有利于其进行大模型的开发。

北京商报记者 杨月涵

相关内容

热门资讯

【建议收藏】0元领取235G长... 研究表明,现代人大概每六秒就会看一次手机,在机不离手的时代,流量早就成为了“氧气般刚需”。与此同时流...
江苏峰工电气取得变压器铁芯夹件... 金融界2025年5月24日消息,国家知识产权局信息显示,江苏峰工电气科技有限公司取得一项名为“变压器...
江苏金碧田取得管道内部控制阀结... 金融界2025年5月24日消息,国家知识产权局信息显示,江苏金碧田系统集成有限公司取得一项名为“一种...
2024可信赖的企业级生成式A... 今天分享的是:2024可信赖的企业级生成式AI白皮书 报告共计:195页 生成式人工智能:重塑企业生...
速递|稚晖君仅3个月再获京东投... 图片来源:智元机器人 据《智能涌现》报道,「智元机器人」即将完成新一轮融资,本轮由京东与今年4月刚设...
“政策给力,自己努力,爬坡过坎... 一套模拟太阳光光谱的植物照明灯,可用于水果、蔬菜、花卉等的无土化栽培,不受土地、季节等条件限制,产量...
2025Q1人工智能现状分析:... 获取完整报告,公众『数字化新机遇』阅读原文或点击菜单获取。 报告《2025Q1人工智能现状分析:中国...
原创 外... 人类起源猜想:文明遗迹、基因密码与宇宙的终极叩问 楔子:星空下的永恒谜题 当现代人用射电望远镜扫描...
首图举办全国科技活动周系列活动 本报讯(记者 路艳霞)昨天,值第25个全国科技活动周之际,首都图书馆围绕“行读绿野 漫游科海”主题,...
李书福:几乎所有新势力都来吉利... 快科技5月25日消息,5月23日,吉利控股集团与北京韩红爱心慈善基金会公益战略合作启动仪式在位于台州...
海尔智家获得发明专利授权:“快... 证券之星消息,根据天眼查APP数据显示海尔智家(600690)新获得一项发明专利授权,专利名为“快速...
AI同传设备支持20人5种语言... 深圳新闻网2025年5月25日讯(深圳特区报记者 方慕冰)5月24日,第二十一届文博会文化产业招商会...
原创 超... "有没有一款手机能让我彻底告别充电焦虑、游戏卡顿和拍照拉胯?" 我正握着发烫的旧手机,看着只剩15%...
启点跃动场馆微信购票:人脸识别... 在全民健身热潮与数字技术深度融合的今天,传统线下购票模式已难以满足观众对便捷、智能、个性化的服务需求...
跨越“数字鸿沟”,社区开展老年... 近日,苏州市姑苏区沧浪街道西大街社区教育中心内洋溢着浓厚的学习氛围,一场老年人智能手机科普活动在这里...
广西正田取得光伏组件支架的夹持... 金融界2025年5月24日消息,国家知识产权局信息显示,广西正田塑料科技有限公司取得一项名为“一种光...
深度观察|文化为魂 科技为翼 作为“中国文化产业第一展”,文博会是全国文化产业的风向标。本届展会以“创新引领潮流 创意点亮生活”为...
苏州锦利仓取得产品展示箱专利,... 金融界2025年5月24日消息,国家知识产权局信息显示,苏州锦利仓电子科技有限公司取得一项名为“一种...
台州利宇电缆取得自修复型电缆专... 金融界2025年5月24日消息,国家知识产权局信息显示,台州利宇电缆有限公司取得一项名为“一种自修复...
这个科学“讲台”上,藏着成都未... 每经记者:唐俊 余蕊均 每经编辑:杨欢 “科学大讲堂”现场 图片来源:主办方供图 依然是雨果厅,依...