阿里开源“零搜索”技术,训练成本直降88%,准确度超谷歌搜索
创始人
2025-05-11 09:21:23
0

智东西

编译 | 金碧辉

编辑 | 程茜

智东西5月9日消息,阿里巴巴5月7日发表于arXiv的论文透露,阿里巴巴达摩院研发的“零搜索”(ZeroSearch)技术突破性破解AI训练成本困境。该技术能通过模拟搜索引擎训练机制,使大模型在无需调用真实搜索引擎API的情况下自主进化检索能力。

▲阿里巴巴达摩院研究团队发表于arXiv的论文原文

“零搜索”技术打破依赖科技巨头的API经济模式,开发者可精准控制训练数据质量。目前开源代码已登陆GitHub和Hugging Face平台,涵盖Qwen-2.5、LLaMA-3.2等主流架构,支持基础版和指令微调版模型。初创企业可用四块A100显卡搭建高精度训练环境。

在包含NQ、TriviaQA、PopQA、HotpotQA等七大主流问答数据集的综合测评中,基于“零搜索”技术训练的140亿参数大模型不仅搜索准确率力压谷歌,更实现训练成本直降近九成。

▲arXiv论文原文中的七大主流问答数据集的综合测评图表

据VentureBeat今天报道,原本需要调用商业搜索引擎API的586.70美元(折合人民币约为4240.74元)开销,如今仅需70.80美元(折合人民币约为510.17元)即可完成同等量级训练任务。这项创新让AI模型在“自我模拟”(self-simulated)中获得出类似搜索搜索引擎的检索能力。

一、 “零搜索” 技术成本大降超八成,性能超越谷歌搜索

研究人员使用SerpAPI调用谷歌搜索服务作为对照组,通过模拟传统AI训练流程中调用商业搜索引擎API的场景,与“零搜索”技术方案进行成本对比。

研究人员测算,使用SerpAPI调用谷歌搜索处理约6.4万次查询,成本约为586.70美元(约合人民币为4228.82元);而在四块A100 GPU上运行14B参数的大语言模型,仅需70.80美元(折合人民币约为510.43元),节省幅度高达88%。

据TechCrunch 2024年11月报道,从目前存在的一些公开信息透露,SerpAPI旨在帮助开发者绕过复杂的网页解析流程,SerpAPI能通过API调用获取谷歌、Bing、百度等主流搜索引擎的搜索结果数据。

SerpAPI的实际企业用户包括Jasper.ai、Copy.ai等AI初创公司,这些企业通过API接口获取实时搜索结果训练对话系统,但具体成本数据未被披露。

二、阿里大模型能生成拟真文档,较谷歌API节省88%开支

阿里巴巴的研究团队发现,经过海量预训练的大模型已具备拟真文档生成能力。通过监督微调将大语言模型转化为检索模块,能按需生成相关或无关文档组合。

在强化学习阶段,系统通过渐进式降低生成文档质量的“教学方案”,迫使模型持续优化检索精度,形成自主进化闭环。

据VentureBeat今天报道,在TriviaQA等7个主流问答数据集测试中,基于通义千问2.5、LLaMA3.2等架构的模在数学视觉推理测试中得分超过OpenAI o1,展现了强大的图形与数学结合的分析能力。14B参数模型在事实准确性指标上超越谷歌搜索2.3个百分点,7B模型与商业引擎持平。相同训练量下模拟方案较谷歌搜索API节省88%开支。

结语:“零搜索”技术推动AI产业进入低成本自主进化阶段

阿里巴巴达摩院的突破可能是AI训练范式的重要转折。当大模型能在封闭系统内模拟现实世界的信息交互,用户得以摆脱对外部服务的依赖,这对数据安全、训练可控性及技术民主化或具有深远意义。

从行业发展趋势来看,“零搜索”技术有望对AI开发价值链产生深远影响。随着自模拟技术成熟,未来,或将涌现更多AI训练方案,推动产业进入低成本自主进化的新阶段。

来源:arXiv、VentureBeat

相关内容

热门资讯

赛力斯取得串型二级隔振悬置组件... 金融界2025年5月10日消息,国家知识产权局信息显示,赛力斯汽车有限公司取得一项名为“串型二级隔振...
浙江美声取得铭牌自动模切装置专... 金融界2025年5月10日消息,国家知识产权局信息显示,浙江美声智能系统有限公司取得一项名为“一种铭...
“科学的思想旅行”:《口述云南... 5月10日,一场以“科学的思想旅行”为主题的文化盛宴在昆明新华书店滇池书城拉开帷幕。由云南广播电视台...
山东安谱检测科技取得绿原酸楂物... 金融界2025年5月10日消息,国家知识产权局信息显示,山东安谱检测科技有限公司取得一项名为“一种绿...
下一代智能体如何跨界进化 想象未来某天,你的保姆机器人接到下楼买咖啡的指令,自主完成开门、乘坐电梯、寻找便利店、取咖啡、付钱等...
原创 为... 广告作为互联网行业最经典的流量变现方式,一直都是各类产品开启商业化的首选。诸如开屏广告、信息流广告、...
重磅!新型细胞技术“治愈”糖尿... 《科创板日报》5月11日讯(记者 徐红)新型干细胞技术“治愈”糖尿病。 自去年以来业界就不断有消息...
在轨53年,苏联时代废弃航天器... 俄罗斯国家航天集团10日说,在绕地轨道运行53年后,苏联时代发射、前往金星失败的航天器“宇宙482”...
原创 五... 2025年的智能手机市场,中端价位段(2000-4000元)竞争愈发白热化,不过随着旗舰技术下放、用...
河北石家庄:推进生物医药产业高... 中新网河北新闻5月11日电 (俱凝搏 韩晓欧)在河北省石家庄经济技术开发区,走进石家庄四药集团药物研...
多措并举点亮长效回馈星辰 深市... 本报记者 田鹏 在科技发展的漫漫长夜中,通信行业恰似那熠熠生辉的启明星,始终闪耀在时代前沿,以不断突...
原创 2... 2 月,全球新能源汽车市场延续了高速增长的态势,动力电池作为核心零部件的需求持续攀升。在这一背景下,...
英伟达首款ARM超级芯片GB1... 5 月 10 日消息,科技媒体 notebookcheck 昨日(5 月 9 日)发布博文,报道称英...
助力打造人工智能先锋城市 深圳... 深圳新闻网2025年5月11日讯(深圳商报首席记者 王海荣)2025年度深圳市训力券兑现申请已正式启...
“第三届未来口腔生物材料前沿论... “第三届未来口腔生物材料前沿论坛” 在西安成功举办 阳光讯 (记者 郑亚雷 )5月9—10日,由香港...
湖南先导新材料申请三氯化铱制备... 金融界2025年5月10日消息,国家知识产权局信息显示,湖南先导新材料科技有限公司申请一项名为“一种...
李大潜:从18分逆袭到应用数学... 在中国应用数学领域,李大潜的名字如同一把“万能钥匙”——他既能在导弹轨迹方程中破解国防密码,也能蹲在...
拓展应用场景 提供创新方案 在当今新技术突破加速带动产业变革的浪潮中,中国人工智能技术发展迅速、应用场景不断拓展。从德国的工厂、...
星启蚌埠 箭指苍穹 蚌埠召开商... 共谋商业航天发展大计,共拓未来产业广阔蓝海。5月10日,中国·蚌埠商业航天产业发展大会在蚌埠市禹会区...
重庆康佳光电申请弱化结构专利,... 金融界2025年5月10日消息,国家知识产权局信息显示,重庆康佳光电科技有限公司申请一项名为“弱化结...