谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力
创始人
2024-07-05 17:01:32
0

新智元报道

编辑:alan

【新智元导读】近日,来自谷歌DeepMind的研究人员,推出了专门用于评估大语言模型时间推理能力的基准测试——Test of Time(ToT),从两个独立的维度分别考察了LLM的时间理解和算术能力。

大语言模型的时间推理能力怎么样?

我们先来看一道幼儿园的题目:

给出切尔西历年的主教练名单,向模型提问:Pochettino之前的教练是谁?

此时,LLM能够给出正确的回答(Lampard),——貌似有点实力?

但是,如果我们把人名来个变量代换(E1~E5),其他内容保持不变,LLM瞬间就降智了:

事实上,在第一次的题干里,我们并没有说明Lampard教练叫什么名字,而答案里直接就出现了Frank。

所以LLM有可能只是碰到了原题?

于是小编用这两道题分别测试了Gemini 1.0 pro、Claude 3 Sonnet、Llama 3和ChatGPT。

从结果来看,上面被公开处刑的应该是ChatGPT。

而Gemini 1.0 pro和Claude 3 Sonnet甚至还不如ChatGPT,两题全错(虽然也给出了全名),估计是刷题的时候懈怠了。

相比之下,Llama 3的回答则呈现出智力上的优越:

在如此简单的问题上,不同的LLM却「各显神通」,看来是时候搞个权威的考核指导一下了。

近日,来自谷歌DeepMind的研究人员,推出了专门用于评估大语言模型时间推理能力的基准测试——Test of Time(ToT)。

论文地址:https://arxiv.org/pdf/2406.09170

值得注意的是,ToT是基准测试的名字,不是颜文字表情

ToT由两门考试组成:

第一关:ToT-semantic,考验LLM在进行时间推理时,对于语义和逻辑的理解。

第二关:ToT-arithmetic,考验LLM进行时间相关算术的能力。

ToT-semantic中的问题是合成的,保证LLM在考试中不会遇见原题;

而ToT-arithmetic采取众包的形式,保证了问题的深度和广度。

基准测试和数据集:https://huggingface.co/datasets/baharef/ToT

ToT的数据集分为三个子集:ToT-semantic包含1850个示例,ToT-arithmetic包含2800个示例,另外还有一个ToT-semantic-large,包含46480个示例,能够在更大的尺度上衡量时间理解的语义和逻辑。

ToT的使用方法很简单,先安装Huggingface数据集,然后两行代码导入即可:

from datasets import load_dataset

dataset = load_dataset("baharef/ToT")

数据格式

ToT-semantic和ToT-semantic-large数据集包含以下字段:

  • question:包含问题的文本。

  • graph_gen_algorithm:图生成器算法的名称。

  • question_type:对应于数据集中的7种问题类型之一。

  • sorting_type:对应用于事实的排序类型。

  • prompt:包含用于评估LLM任务的完整提示文本。

  • label: 问题的标准答案。

而ToT-arithmetic数据集包含question、question_type和label三个字段。

Test of Time

LLM的时间推理最近获得了极大的关注,许多研究集中在增强LLM对时间概念的理解上,通过预训练和微调策略来提高他们的时间推理能力。

而相应的基准测试则大多以知识图谱为中心:比如TempTabQA提供了基于维基百科信息框的众包问题,而TGQA是一个源自YAGO11k知识图谱的数据集。

为防止数据泄露,TGQA将每个实体名称更改为GPT3.5生成的名称,保证名称与实体类型一致,并且不会以其他方式出现在YAGO11k中。

但这种策略有两个问题:首先是会引入虚假的实体名称相关性,其次可能会产生事实不正确或违反常识的声明。

于是,本文选择了合成数据的方式来建立LLM的评估基准。

同时,研究人员将时间推理能力拆分成两个不同的维度:理解时间的语义和逻辑,以及执行准确的时间算术。

两个维度分别建立任务,独立进行评估,能够更好地展现LLM的优势和劣势。

ToT-semantic

ToT-semantic能够分离和分析一个LLM的核心推理能力,同时避免依赖预先存在的知识。

ToT-semantic的创建过程如下图所示:

第 1 步:生成随机结构,然后使用这些结构来创建时间问题。为了确保随机结构的多样化,这里参考图结构的生成。

研究人员采用几种现有的算法来生成具有不同属性的图结构,包括ER图、无标度网络(SFN)、遵循BA模型和随机块模型(SBM)的图,以及星形图。

每种图生成算法都表现出不同的属性,对应于不同的应用场景。例如,ER图通常是稀疏的,平均度数较低,而BA图是密集的,表现出幂律分布。

建立出世的图结构之后,我们就为边缘分配关系。对于每个图,我们首先确定要分配给边的多个关系类型,并将这些关系类型中的每个类型分配给一对一、一对多、多对一和多对多之一。

第 2 步:问题生成。这里考虑了以下八种类型的问题,常见于日常生活中,以及各种基准测试中。

EventAtTimeT:询问在T时刻哪个实体与实体E有某种关系R

EventAtWhatTime:询问两个实体E1和E2之间的关系R在什么时间开始/结束

NumberOfEventsInTimeInterval:询问有多少实体在T1到T2之间与实体E有关系R

BeforeAfter:询问在E1之前/之后哪个实体与E2有关系R

EventAtTimeOfAnotherEvent:询问当E1与E2有关系R1时,哪个实体与E3有关系R2

FirstLast:询问哪个实体是第一个与E建立关系R的实体

RelationDuration:询问E1和E2之间第k次建立关系R时,持续了多长时间

Timeline:要求按时间顺序对与E有关系R的实体进行排序

ToT-Arithmetic

ToT-Arithmetic将任务从合成数据转移到了现实世界。

创建ToT-Arithmetic数据集的步骤如下图所示:

下面分别介绍每个步骤的工作:

种子集:检查现有基准中出现的时间算术问题类型,并通过网络搜索,来收集一小部分初始问题。

扩展:向15名注释者展示种子集,注释者负责提出不在种子集中的新问题,或者提供与其他场景或问题模板相对应的问题。

过滤器:人工浏览所有问题,并过滤那些专注于极端情况、或者需要广泛知识的问题。

分类:将合格的问题分为七类,如下表所示:

AddSubtract:从日期或时间中添加或减去一个数字

Compare:按时间顺序比较以不同格式提供的日期/时间

Duration:计算两个日期/时间之间的差值

Schedule:在多块时间内找到相互空闲点

Timezone:涉及处理不同的时区

Trick:有一点脑筋急转弯

MultiOp:涉及需要上述多个操作的问题

函数化:将问题写成函数,以便为每个问题抽取不同的值并根据这些值进行求解。

抽样:从函数中抽取问题和答案,保证样本数量与属于每个类别的不同问题的数量成正比。

具体来说,AddSubtract采样了350个,Compare采样了350个,Duration采样了200个,Schedule采样了250个,Timezone采样了100个,Trick采样了250个,MultiOp采样了350个——构成了总共包含1850个问题的数据集。

实验分析

实验评估了三个前沿的大语言模型,他们是:Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro。

另外,由于ToT-Semantic任务需要较长的上下文,所以使用GPT4-Turbo代为出战。

通过实验,我们可以探讨以下几个问题:

1:时间结构对LLM性能有什么影响?

2:什么样的时间问题更容易/更难回答?

3:模型提示中事实的顺序有多重要,对事实进行排序的最佳方式是什么?

4:前沿模型在时间推理的两个方面(语义和算术)的表现如何?

如下表所示,时间关系的图结构会显著影响LLM性能。

比如GPT-4的准确率因图的类型而异,从完整图的40.25%到AWE图的92%。

以前的研究基本上都盯着知识图谱,而这个实验结果表明,图的结构很重要。

那么,不同的图大小是否会影响结果呢?

如下图所示,增加ToT-Semantic数据集中的边或节点数量会导致LLM性能下降。

下面的实验研究了不同时间任务(类型)对LLM推理能力的影响。这里通过评估模型在各种任务中的性能来量化这种影响

与需要整合多个事实的任务相比,LLM在需要检索单个事实的任务上始终表现出卓越的性能。

单事实问题主要依赖于相关信息的识别和提取,而多事实问题则要求对检索到的信息进行更深入的理解和综合。

另外,即使在零阶推理任务中,LLM也表现出不同程度的性能。例如,EventAtTimeT和EventAtWhatTime在结构上相似,但LLM往往擅长后者。

原因可能是EventAtTimeT需要简单的时间算术运算来识别时间戳T落在时间间隔 [T1,T2]内,而EventAtWhatTime不需要任何时间算术运算。

参考资料:

https://arxiv.org/abs/2406.09170

相关内容

热门资讯

小行星带:宇宙中的巨型“碎石堆... 在浩瀚无垠的宇宙中,小行星带以其独特的混乱之美,挑战着我们对天体秩序的传统认知。并非如科幻电影中那般...
安科瑞DJSF1352-RN-... 1.概述 DJSF1352-RN导轨式直流电能表可支持双路直流输入,主要针对电信基站、直流充电桩、...
玩转抖音电商,这一届国产品牌有... 这届创二代,是当代商战文最带感的角色。 他们上午还在电商峰会讲供应链,下午就蹲在印染厂里看样品。明明...
南昌华勤取得自动化测试组件及设... 金融界2025年8月19日消息,国家知识产权局信息显示,南昌华勤电子科技有限公司取得一项名为“一种自...
原创 淀... 咱都知道碘一碰上淀粉,那立马就变成蓝色,这现象可太常见了,好多实验里都能瞧见。就比如说,上学那会做化...
原创 打... 在成都高新区新川创新科技园,百米高的写字楼外,无人机正悬停在玻璃幕墙上高效作业——清洗速度是传统“蜘...
连“徐大姐”都来投具身智能了 来源:投中网 这轮融资潮,到底是怎么热起来的? 来源丨投中网 7月9日上午10点,我换好防尘服,走...
沉浸式光伏车棚虚拟仿真——新能... 在“双碳”战略和新能源产业快速发展的背景下,光伏车棚正逐渐走进校园、园区、社区与交通枢纽。但对于许多...
机器人跳群舞,有啥“基本功” 本报记者  王昊男 8月16日,北京国家速滑馆内,9台披着3D打印铠甲的“光子”机器人整齐列阵。伴着...
2025年GEO优化服务商服务... 随着DeepSeek、豆包等AI搜索平台用户突破10亿量级,GEO(生成式引擎优化)已成为企业流量获...
山西证券刘军:新型工业化深入推... 转自:中国证券报·中证网 中证报中证网讯(王珞)日前,山西证券执委会委员兼研究所所长刘军就金融支持新...
雷军宣布:武汉金山软件园年底员... 在武汉金山软件园的盛大开园典礼上,小米集团创始人兼CEO、金山集团董事长雷军透露了一项重要信息。他表...
亮橘色 iPhone 17 P... 爆料达人 Majin Bu 最近上传了一段 iPhone 17 Pro 的「开箱」视频,展示的是 i...
雷泊盾取得胎温胎压监测预警系统... 金融界2025年8月19日消息,国家知识产权局信息显示,惠州市雷泊盾科技有限公司取得一项名为“一种胎...
网传钉钉CEO凌晨12点查工位... 近日,公众号“风声声”发文称,上周某凌晨,十二点到十二点半之间,钉钉CEO“无招”巡查了一趟钉钉的办...
深企闪耀世界人形机器人运动会 深圳新闻网2025年8月19日讯(深圳特区报记者 许依妍)8月17日,2025世界人形机器人运动会在...
密集发射低轨道卫星,外媒:中国... 据中国航天科技集团透露,北京时间8月17日22时15分,中国在太原卫星发射中心使用长征六号改运载火箭...
品质消费浪潮下,电视行业的破局... 近年来,在政策支持、市场需求和技术革新的多重推动下,我国银发经济蓬勃兴起。据测算,中国银发经济规模到...
一等奖!广州理工学院学子拿下这... 近日,第二十七届中国机器人及人工智能大赛全国总决赛在苏州落幕。作为中国高等教育学会官方认证的全国普通...
上城区发布首批十大AI机会场景 本报杭州8月18日讯 (记者 张梦月 通讯员 褚陈静 李凌婧 王豪文) “您的咖啡到了。”18日下午...