阿里开源“零搜索”技术,训练成本直降88%,准确度超谷歌搜索
创始人
2025-05-11 09:21:23
0

智东西

编译 | 金碧辉

编辑 | 程茜

智东西5月9日消息,阿里巴巴5月7日发表于arXiv的论文透露,阿里巴巴达摩院研发的“零搜索”(ZeroSearch)技术突破性破解AI训练成本困境。该技术能通过模拟搜索引擎训练机制,使大模型在无需调用真实搜索引擎API的情况下自主进化检索能力。

▲阿里巴巴达摩院研究团队发表于arXiv的论文原文

“零搜索”技术打破依赖科技巨头的API经济模式,开发者可精准控制训练数据质量。目前开源代码已登陆GitHub和Hugging Face平台,涵盖Qwen-2.5、LLaMA-3.2等主流架构,支持基础版和指令微调版模型。初创企业可用四块A100显卡搭建高精度训练环境。

在包含NQ、TriviaQA、PopQA、HotpotQA等七大主流问答数据集的综合测评中,基于“零搜索”技术训练的140亿参数大模型不仅搜索准确率力压谷歌,更实现训练成本直降近九成。

▲arXiv论文原文中的七大主流问答数据集的综合测评图表

据VentureBeat今天报道,原本需要调用商业搜索引擎API的586.70美元(折合人民币约为4240.74元)开销,如今仅需70.80美元(折合人民币约为510.17元)即可完成同等量级训练任务。这项创新让AI模型在“自我模拟”(self-simulated)中获得出类似搜索搜索引擎的检索能力。

一、 “零搜索” 技术成本大降超八成,性能超越谷歌搜索

研究人员使用SerpAPI调用谷歌搜索服务作为对照组,通过模拟传统AI训练流程中调用商业搜索引擎API的场景,与“零搜索”技术方案进行成本对比。

研究人员测算,使用SerpAPI调用谷歌搜索处理约6.4万次查询,成本约为586.70美元(约合人民币为4228.82元);而在四块A100 GPU上运行14B参数的大语言模型,仅需70.80美元(折合人民币约为510.43元),节省幅度高达88%。

据TechCrunch 2024年11月报道,从目前存在的一些公开信息透露,SerpAPI旨在帮助开发者绕过复杂的网页解析流程,SerpAPI能通过API调用获取谷歌、Bing、百度等主流搜索引擎的搜索结果数据。

SerpAPI的实际企业用户包括Jasper.ai、Copy.ai等AI初创公司,这些企业通过API接口获取实时搜索结果训练对话系统,但具体成本数据未被披露。

二、阿里大模型能生成拟真文档,较谷歌API节省88%开支

阿里巴巴的研究团队发现,经过海量预训练的大模型已具备拟真文档生成能力。通过监督微调将大语言模型转化为检索模块,能按需生成相关或无关文档组合。

在强化学习阶段,系统通过渐进式降低生成文档质量的“教学方案”,迫使模型持续优化检索精度,形成自主进化闭环。

据VentureBeat今天报道,在TriviaQA等7个主流问答数据集测试中,基于通义千问2.5、LLaMA3.2等架构的模在数学视觉推理测试中得分超过OpenAI o1,展现了强大的图形与数学结合的分析能力。14B参数模型在事实准确性指标上超越谷歌搜索2.3个百分点,7B模型与商业引擎持平。相同训练量下模拟方案较谷歌搜索API节省88%开支。

结语:“零搜索”技术推动AI产业进入低成本自主进化阶段

阿里巴巴达摩院的突破可能是AI训练范式的重要转折。当大模型能在封闭系统内模拟现实世界的信息交互,用户得以摆脱对外部服务的依赖,这对数据安全、训练可控性及技术民主化或具有深远意义。

从行业发展趋势来看,“零搜索”技术有望对AI开发价值链产生深远影响。随着自模拟技术成熟,未来,或将涌现更多AI训练方案,推动产业进入低成本自主进化的新阶段。

来源:arXiv、VentureBeat

相关内容

热门资讯

OpenAI从特斯拉、xAI和... 据《连线》报道,OpenAI已从竞争对手挖走了四名知名工程师,其中包括特斯拉前软件工程副总裁 Dav...
忘了梅西吧,来看看中国人形机器... 美国Gizmodo网站巴西版7月6日文章,原题:忘了梅西吧:中国的机器人足球赛有望彻底改变机器人技术...
无机房电梯控制系统升级全攻略:... 无机房电梯的控制系统升级,说白了就是给电梯的“大脑”和“肌肉”换新装备,重点盯紧硬件更换、软件升级、...
盒马进津,一场迟来的约定 作者 | 颜叶 编辑 | 魏晓 6月27日开业以来,盒马落地天津的首店刷新了不少纪录。 数据显示,盒...
Meta上亿美元抢人的另一面,... 文 | 字母榜,作者 | 毕安娣,编辑 | 肖阳 Meta丝毫没有收手的意思。 就在刚刚,彭博社爆...
“引力二号”火箭“三合一”联合... 新京报讯(记者张建林)近日,由东方空间研制的中大型可回收液体运载火箭“引力二号”完成了“三合一”联合...
原创 美... 编辑丨苏木 文丨苏木 本文陈述所有内容皆有可靠信息来源,赘述在文章结尾 “美国这波操作实在让人看不...
奥动新能源申请换电系统初始化相... 金融界2025年7月8日消息,国家知识产权局信息显示,奥动新能源股份有限公司申请一项名为“换电系统的...
Win7系统下的数据怎么备份?... 在普遍应用的Windows 7操作系统中,数据备份显得极为重要,这是确保信息安全的核心手段。一旦遭遇...
比越南还忘恩负义!曾获中囯北斗... 在国际关系中,有些国家得了便宜还卖乖,真是让人看不下去。澳大利亚就是个典型例子,曾经靠着中国北斗系统...
鹿城:以“早动、快动、小动”全... 【本站】面对今年预计首个正面影响温州的第4号台风"丹娜丝",鹿城区着力构建"早动、快动、小动"三动防...
你不知道的安徽建工②:以“智”... 胡雨松 今年5月,位于合肥市长丰县的安徽建工集团智能绿色制造(长丰)产业园(以下简称“产业园”)全面...
天坛公园发布五大合作领域,面向... 系统开放IP授权,开发夜间沉浸式科技文旅体验、艺术展演以及高品质文化定制内容,打造“四时祈运”为主题...
天津银行手机银行8.0云端焕新... 以“智领金融新生态”为核心,天津银行手机银行8.0版本于7月7日通过云端发布会正式亮相。作为践行金融...
吴忠推动执法模式从传统向智慧变... 近日,记者走进宁夏回族自治区吴忠市公安局执法办案管理中心,近距离感受吴忠市公安机关如何以执法办案管理...
活力中国调研行|“老药方”邂逅... “药不到樟树不齐,药不过樟树不灵”,江西樟树市素有“千年药都”之称。近年来,当地政府依托中医药底蕴,...
祥鑫科技获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示祥鑫科技(002965)新获得一项实用新型专利授权,专利名为“...
智能终端产业集群崛起——打造“... 01 产业集群 ●全市正在打造一个集研发、制造、销售等于一体的智能终端产业集群,吸引国内外投资,带动...
浙江风驰机械申请高精度芯轴成型... 金融界2025年7月8日消息,国家知识产权局信息显示,浙江风驰机械有限公司申请一项名为“一种高精度芯...
扬州造“永不落幕的太阳”升空,... 近日,夜幕下的江都区低空经济人才实训基地内,一架搭载巨型LED灯组的无人机凌空悬停,将6000平方米...