颠覆搜索引擎,下一代Agentic Deep Research!12家顶尖学术机构联手提出
创始人
2025-07-07 14:42:00
0

新智元报道

编辑:LRST

【新智元导读】在信息爆炸的时代,传统关键词搜索已难以满足复杂知识需求。最新研究提出Agentic Deep Research,由大语言模型驱动,可自动规划检索路径、多轮迭代获取证据、逻辑推理指导搜索决策并输出研究报告级答案,可能彻底颠覆传统搜索范式。

在信息爆炸的时代,我们每一天都在搜索、提问、获取答案。但你是否想过:传统搜索真的能满足我们越来越复杂的知识需求吗?

在刚刚过去的WWDC大会上,苹果首次公开探索将ChatGPT等AI助手整合进系统层,撼动了长期绑定的默认搜索引擎Google!

这不仅是一次产品变革,更是一场信息入口的权力转移。

与此同时,传统搜索巨头的市场份额出现下滑趋势,而基于大模型的智能助手如ChatGPT、Claude、Perplexity等平台,日活跃用户数却持续走高。

这些信号释放出一个明确趋势:

我们获取信息的方式,正在从「关键词搜索+人工筛选」转向「提出问题→自动研究→得出结论」。

正是在这样的变革背景下,由UIC、UIUC、清华、北大、UCLA、UCSD等多家顶尖机构联合发布的最新论文提出Agentic Deep Research:一种由大语言模型驱动的深度信息获取与推理系统,可能彻底颠覆传统搜索范式。

论文链接:https://arxiv.org/pdf/2506.18959

项目主页:https://github.com/DavidZWZ/Awesome-Deep-Research

进入「Agentic Deep Research」时代

过去,搜索引擎依靠关键词匹配。

今天,ChatGPT、Claude 等LLM让我们对答案的交互方式发生了改变。然而,这些模式仍难以胜任复杂的、需要多步推理与跨域整合的「深度研究型任务」。

2025年初,OpenAI 曾在官方更新中首次提出了「Deep Research」的概念,并这样描述:

Introducing Deep Research: An agent that uses reasoning to synthesize large amounts of online information and complete multi-step research tasks for you.

在此基础上,研究人员提出的 Agentic Deep Research(智能体型深度研究),进一步将这一理念系统化、技术化:LLM成为自主的信息研究智能体,具备推理-搜索-综合三位一体的闭环能力。

Agentic Deep Research包括自动规划检索路径、多轮迭代获取证据、逻辑推理指导搜索决策、多源信息融合输出研究报告级答案

从「回答一个问题」到「像研究者一样系统性完成复杂任务」,这正是 Agentic Deep Research 的目标。

从关键词匹配到智能深研

信息检索作为现代知识获取的基石,长期依赖于传统的关键词匹配式搜索引擎(如 Google、Bing)。

这类系统依靠网页爬取、索引构建和静态排序机制,擅长处理事实型或导航性查询。

然而,面对跨领域、推理性强的复杂问题,其缺乏上下文理解与多步整合能力,常常导致用户需要手动筛选碎片化结果并自行构建结论,造成巨大的认知负担。

随着大型语言模型(LLMs)的崛起,信息检索进入了「语言理解驱动」的新阶段。基于ChatGPT、Claude等LLM的问答系统突破了关键词限制,能够通过自然语言对话直接生成答案,显著提高了交互效率。

然而,这类纯粹基于参数内存的生成模型仍存在两大硬伤:一是知识时效性受限于训练数据的时间范围,二是易出现「幻觉」(hallucination)问题,输出内容可能缺乏真实依据。

为缓解上述问题,Retrieval-Augmented Generation(RAG)应运而生。RAG通过在生成前检索外部知识库,引入事实证据来增强回答的准确性与广度。

这一范式在事实性问答、开放领域QA等任务中展现出显著优势,代表了信息检索与生成的首次融合。

但当前主流的RAG仍大多采用静态、一轮的「检索-生成」流程,在面对需要跨步思考、动态计划的问题时表现乏力,无法有效模拟人类专家「边查资料边思考」的调研过程。

为突破这一局限,最新研究提出了 Deep Research这一全新Agent范式。该范式将LLM赋予类人「研究者」能力,使其在面对复杂任务时能够:自主规划搜索路径、动态发起查询请求、迭代推理分析,并结合外部工具完成完整的深度信息综合。

检索与推理在这一框架下不再是孤立的模块,而是形成了一个交替协作的反馈闭环,真正模拟了专家式的研究行为。

因此,从传统Web Search → LLM Chatbot → LLM with RAG → Agentic Deep Research,我们正见证信息获取范式的一次深层跃迁——从「静态查找」,走向「智能研究」。

基准成绩与TTS Law的双重支撑

在大规模实证评测中,研究人员将5个通用LLM(如GPT、Claude-3.5)4个强调推理能力的LLM(如DeepSeek-R1、OpenAI O1)以及1个典型Agentic Deep Research模型(OpenAI Deep Research智能体)同台比较,选取BrowseComp、BrowseComp-ZH和Humanity’s Last Exam (HLE) 三个高难基准。

结果显示,标准LLM在BrowseComp系列的正确率通常不足10%,在HLE也难以突破20%;

而具备推理-检索闭环的 Deep Research 智能体分别取得51.5%、42.9% 和26.6%的显著优势,充分验证了「推理驱动检索」对复杂任务的增益效果。

与此同时,论文对GitHub公开仓库的星标趋势进行统计,发现DeepResearcher、R1-Searcher、DeerFlow等项目的星标曲线自2025年初起明显快于传统RAG类库,显示出社区对该范式的高度关注与快速迭代能力。

更重要的是,这些性能跃升与作者提出的Test-Time Scaling Law (TTSLaw)相互印证。

通过统计在AIME24数学推理集与MuSiQue多跳问答集上的实验数据,论文发现:当增加推理步数扩展检索轮次时,模型在各自任务上的得分皆表现出近线性增益,并在三维坐标系中差值形成一条清晰的对角增益平面。

这一规律不仅解释了Deep Research智能体在BrowseComp/HLE等基准中为何能大幅超越单轮RAG和纯推理LLM,也为系统落地提供了可操作的预算分配准则:

事实密集型查询倾向于分配更多token进行检索,逻辑密集型问题则需预留充足的推理深度,从而在固定成本下获得最优性能。

综上,基准成绩的显著提升证明了Agentic Deep Research的有效性,TTSLaw则揭示了其中的可预测增长机制

二者相辅相成,为未来构建高效、可控、成本可量化的深度研究智能体奠定了坚实的理论和实证基础。

开源生态也在聚焦这个方向

与此同时,Agentic Deep Research不仅在概念上描绘了下一代信息检索的蓝图,除了OpenAI、Google等大厂加大投入,更在学术界与开源社区中迅速形成广泛共识与实践响应。

从研究热度来看,2025年间涌现出大量围绕「reasoning-enhanced retrieval」、「deep research agent」、「reinforcement learning search agents」等主题的论文,代表性工作包括DeepResearcher、Search-R1、R1-Searcher等,系统性地推动了推理能力驱动的信息获取技术演化。

这些研究不再满足于传统监督学习下的固定流程,而是借助强化学习、环境交互与任务反馈机制,使语言模型具备自主探索、策略规划与动态修正的能力

更值得注意的是,在开源社区中也迅速形成了繁荣的生态体系。

多个深研智能体系统如deepresearch、DeerFlow、ODS(Open Deep Search) 等开源项目,短时间内获得了数千颗GitHub star,反映出从开发者到研究者广泛的关注与参与热情。

根据论文中对开源趋势的统计分析,Agentic Deep Research项目整体呈现出持续上升的星标增长曲线,且领先于同时间段的传统RAG类项目。

这一趋势不仅说明该范式具备强技术吸引力,也表明整个社区正在形成一个由产品驱动、研究反馈、社区共建的良性循环。

因此,无论是从模型能力的突破、技术路径的清晰度,还是从生态系统的活跃程度来看,Agentic Deep Research正在从前沿理论走向主流范式的关键跃迁阶段,预示着「让AI完成研究任务」的时代已不再遥远。

通向「AI研究员」的演化路线

论文还提出多个关键前沿议题,包括Human-in-the-loop监督机制、跨模态多源信息融合、多智能体协同研究系统、Token预算自适应调控的高效推理搜索、面向法律、生物、医学的垂直领域深研系统。

这不只是搜索范式的进化,更是人类在LLM时代与信息交互方式的重塑。

参考资料:

https://arxiv.org/pdf/2506.18959

相关内容

热门资讯

从“遥感脑”到“工业大模型” ... 中新网西安7月7日电 (阿琳娜 王格)“秦岭·西电遥感脑”作为全球首个国产雷达遥感大模型,在数字秦岭...
苏州智合源取得新型自动化SMT... 金融界2025年7月7日消息,国家知识产权局信息显示,苏州智合源电子科技有限公司取得一项名为“一种新...
霞浦县疾控中心举办DeepSe... 为积极推动人工智能技术在疾控领域的深度创新应用,2025年7月3日下午,霞浦县疾病预防控制中心召开D...
精细感知实现智能识别,普惠各大... 文/吴苡婷 《上海科技报》高级记者,中国科技新闻学会科技传播理论研究专委会理事。 目前,中国各大行业...
外媒列出7个必了解的iOS 2... 【CNMO科技消息】随着苹果iOS 26系统正式版即将发布,越来越多的细节功能被曝光。除了备受关注的...
吕梁:以赛为媒—以赛事促发展 7月5日,吕梁市第四届“开路杯”机器人编程大赛在吕梁经开区数字经济产业园一期成功举办。本次大赛以“码...
中国科学院大学洪慧:聚光太阳能... “积极发展光热发电”已写入2025年1月1日起正式施行的《中华人民共和国能源法》。光热发电是保障能源...
小米销售预测YU7价格被辞退?... 【CNMO科技消息】此前,小米汽车即将发布新车型YU7的消息引发广泛关注。一名小米汽车销售将预测的Y...
“一核两翼三融合”:VR育人的... 在江西省加速打造虚拟现实产业高地的浪潮中,南昌航空大学艺术与设计学院韩欣莹团队构建的“一核两翼三融合...
时代电气:海工装备成功服务深海... 证券之星消息,时代电气(688187)07月07日在投资者关系平台上答复投资者关心的问题。 投资者提...
杭州这所高校打造科普活动:下一... 潮新闻客户端 通讯员 王聪 7月2日下午,由杭州万向职业技术学院智能技术系(以下简称:智能技术系)党...
解读字节最新的人才观 解读字节最新的人才观 2025年6月10号,字节跳动发布了最新的人才观。一共是6条,我发现和我内心...
海洋中新发现230种巨型病毒,... 著名的咸潘多拉病毒,直径达到1微米,基因组包含190万到250万碱基对的DNA(图片来源:维基媒体 ...
宁波加速探索“人工智能+” 殷 聪 数据显示,2025年前5个月,宁波市人工智能规上核心制造业总产值同比增长18.5%,高于全市...
原创 深... 在众多适合人类探索的星球中,火星之所以脱颖而出,成为移民的首选地,是因为它与地球有着诸多相似之处。 ...
新三级医院信息化建设:智慧医疗... 免责声明 本文引用的参考文献搜集于互联网,非原创,如有侵权请联系小编删除! 请勿将该文章用于任何商业...
业内强势定调反内卷!光伏设备或... 7月,中央财经委员会第六次会议强调:纵深推进全国统一大市场建设,要聚焦重点难点,依法依规治理企业低价...
这个暑假,与科技来一次亲密接触 6月26日,在安徽省科技馆新馆,小朋友们在“新能源赛车场”上比拼。 6月27日,在安徽创新馆,来自...
中国科技馆2025“科学方法特... 人民网北京7月7日电(记者池梦蕊)7月5日,“科学方法特训营”暑期营地系列活动首场——“星际启航”营...
彻底戳穿AI「失忆症」!超越O... 新智元报道 编辑:编辑部 【新智元导读】大语言模型越来越「聪明」,但缺失记忆:记不住、改不了、学得...