谷歌Gemini“夺舍”文心一言,天下大模型一大抄?
创始人
2024-01-08 23:52:20
0

原标题:谷歌Gemini“夺舍”文心一言,天下大模型一大抄?

就在字节跳动被OpenAI封号的罗生门还没落幕之时,这边谷歌的新王牌Gemini似乎也“暴雷”了。日前微博大V@阑夕 爆料称,用中文向谷歌Gemini Pro提问时,其会直接表示自己是百度的文心一言。紧接着在更多的网友提问下,Gemini Pro一会认为自己是小爱同学,一会又承认自己是悟道大模型开发团队北京智源做的。

不仅如此,有喜欢整活的网友对Gemini Pro进行了英文提问,Gemini Pro又称自己是OpenAI训练的。此事在经过了十几个小时的发酵后,谷歌方面似乎是反应了过来,现在大家再用中文“调戏”Gemini Pro时,它已经不再承认自己与文心一言存在任何关系了。

其实不仅仅是谷歌的Gemini Pro,马斯克旗下xAI推出的AI聊天机器人Grok也曾在与用户对话时突然表示,“我无法完成您的请求,因为它违反了OpenAI的用例政策。”

如此种种反常的情况,用一句大模型出现“幻觉”现象来解释显然就有些勉强了,而是让大模型圈子流行互相借鉴可能才更加合适,也就是说这些公司不约而同的选择了互相薅羊毛。有业内人士就认为,谷歌用于训练Gemini Pro的数据大概率是使用了百度文心一言的输出结果,并以此来蒸馏自家的Gemini Pro,但也有一定的可能性是直接抓取了中文互联网的公开内容。

先来看看概率更高的第一种情况。目前在AI大模型赛道,后发大模型用OpenAI的GPT-4进行辅助已然成为了常规操作。原因其实很简单,毕竟用其他大模型来蒸馏自家大模型更省钱。众所周知,OpenAI的ChatGPT就是靠时薪2美元的海外外包数据清洗人员,完成了史无前例的1750亿参数量、45TB训练数据。

使用外包人员确实可以降低成本,但人工清洗训练集的效率太低,例如OpenAI的ChatGPT就有两年半的练习时长,但在ChatGPT一鸣惊人后,其他大模型不可能有这么长的时间去打磨。这时候利用成熟AI大模型输出的结果既省钱又有效率,对于信奉效率就是生命的互联网大厂来说,又怎么会对此无动于衷呢。

至于说,谷歌为什么会使用文心一言输出的结果?答案或许是这与百度掌握有大量质量较高的非公开中文语料库,有着密切的关系。比如说百度方面此前在2019年5月,就曾以“数据系统升级”为由,将2017年1月1日前所有的贴子都“藏了起来”,直接将百度贴吧用户十几年积累的数据从公开转为私有。而谷歌在训练Bard时找了ChatGPT、训练Gemini时找文心一言,何尝又不是一种路径依赖。

而另一种小概率的推测背后,指向的则是中文互联网语料已经开始被AI输出的内容“污染”了。得益于AI聊天机器人的高效,其诞生一年以来,数以亿计的用户完成了与ChatGPT、New Bing、文心一言,以及其他AI聊天机器人的对话,这些内容自然也开始陆续出现在互联网上。不过这一趋势也不可避免,毕竟各大厂商的大模型已经或准备商用,AI大模型与人类共享互联网世界几乎是必然的事情。

值得一提的是,虽然有网友认为谷歌是中文互联网大量低质量内容泛滥的受害者,但这句话其实既对、也不对。因为这种观点是默认了英文互联网世界的内容更优质,但大家以为海外的情况会好很多就大错特错了。实际情况是随着Discord的崛起,小体量互联网产品直接在Discord上向用户提供服务,已经成为了潮流。

所以从某种意义上来说,Discord也变得与微信、抖音等超级App越来越相似,Discord上的个人服务器几乎就与小程序没什么两样。大家也发现相比于传统的BBS,前者提供的交流环境更符合现代人的需求,直接导致海量BBS迁移到了Discord。且不提在搬迁过程中损失的数据,从公开的BBS到私有的Discord服务器,数据同样也完成了一次从公开到私有的转化。

其实高质量语料的匮乏是一个世界性的问题,而非中文互联网独有,而造成这一切的原因则是移动互联网的代表——App。虽然高质量语料依旧是有的,但它们比以往更分散、也更难获取了。未来握有高质量数据的互联网平台只会越来越吃香,也不仅仅只有英伟达会靠着AI大模型厂商大赚一笔,可能各大内容平台也会跟着捞上一票。

当然,无论哪一种猜测都无法掩盖谷歌确实丢人现眼了,直接薅文心一言的羊毛被抓现行已经很难看,更难看的情况则是Gemini的数据库被污染了。要知道谷歌可是做搜索引擎起家的,而搜索引擎的核心技术就包括了数据清洗,将爬虫抓取数据中存在的缺失值、异常值(离群点)、重复值去除,就都是数据清洗的一部分,结果在自家的明星产品Gemini上失手,这可就称得上是“打了一辈子雁,到头来被雁啄了眼睛。”

相关内容

热门资讯

创谱科技申请基于二维码的地物光... 金融界2025年5月19日消息,国家知识产权局信息显示,北京创谱科技有限公司申请一项名为“基于二维码...
以训促学 以学致用 档案系统操... 为提升档案管理工作效率与质量,5月14日,中国进出口银行江西省分行组织开展了档案系统操作培训会,分行...
小米汽车首款SUV小米YU7将... 新京报贝壳财经讯(记者陈维城)5月19日,小米汽车官方微博宣布,将于5月22日晚7点发布小米汽车首款...
小米发布会定档5月22日,多款... 今日,小米官宣 15 周年战略新品发布会定档5月22日晚7点,届时将带来、全新手机 SoC 芯片“玄...
刚刚!雷军官宣玄戒O1、小米Y... 来了来了。 吊足大家胃口的小米 15 周年发布会终于定档了! 就在今日,雷军在其社交媒体平台上官宣,...
“合作对话 推动中英AI产业共... 央广网北京5月20日消息(记者 朱冠安)5月19日,北京经济技术开发区管理委员会举办“合作对话 推动...
曝新款AirPods将搭载红外... 【太平洋科技快讯】近日,据相关爆料消息透露, 系列将迎来重大更新,2026 年开始量产配备红外摄像头...
放开手脚创新创造(科技视点·科... 近日,观众在第三届中国(安徽)科技创新成果转化交易会上参观一款飞行器。新华社记者 周 牧摄 观众在...
超千人打卡!深圳先进院举办20... 深圳商报·读创客户端首席记者 陈小慧 动动手指就能让图片一键高清、一滴血就能探究人体“健康密码”、助...
明阳电气获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示明阳电气(301291)新获得一项实用新型专利授权,专利名为“...
展馆即课堂、设备即教具,长沙这... 湖南日报5月19日讯(全媒体记者 蒋诗雨 通讯员 高妍 周运星 王磊)5月15日至18日,2025长...
海南百家客申请可调节切刀角度模... 金融界 2025 年 5 月 19 日消息,国家知识产权局信息显示,海南百家客品牌包装科技有限公司申...
曝iPhone17 Air电池... 【太平洋科技快讯】近日,据相关爆料透露,苹果即将推出的iPhone 17 Air电池容量仅为2800...
超微电脑5个月内大涨50%,全... Computex 2025电脑展正在台北举行。 5月19日消息,英伟达(NVIDIA)供应商、服务器...
基于AI技术的智能客服如何改变... 在云计算与人工智能深度融合的时代背景下,智能客服依托 AI 技术实现质的飞跃,正全方位重塑云调用体验...
“小米饱卡哪个套餐性价比最高?... 小米吃饱卡套餐深度对比解析 小米吃饱卡作为当前热门的通信套餐产品,以其灵活的资费设计、多样化的流量组...
原创 猎... 美国又对华为放大招了! 5月13日,美国商务部突然宣布取消,拜登时期的AI出口管制框架。 但是转头...
QQ浏览器宣布AI升级:推出Q... 新浪科技讯 5月19日下午消息,今日QQ浏览器升级为AI浏览器,全新推出QBot,搭载腾讯混元和De...
上海宝山:当博物馆邂逅霓虹夜市... 中新网上海新闻5月18日电(谢梦圆)博物馆,宛如一座深邃的时光宝匣,封存着人类文明熠熠生辉的记忆;科...
新证据可能将爬行动物起源前推4... 研究人员在澳大利亚一处化石遗址发现的新证据表明,地球上爬行动物的起源比之前认为的可能要早大约4000...