Yann LeCun等基于50年前旧数据打造信息论框架,驳斥大模型能复制人类认知的观点
创始人
2025-06-02 21:20:45
0

近日,图灵奖得主&美国纽约大学教授杨立昆(Yann LeCun)联合美国斯坦福大学团队打造出一款信息论框架,借此揭示了大模型和人类的一个根本差异:即两者在平衡信息压缩和语义意义上采用了截然不同的策略

(来源:资料图)

对于加强人机对齐的 AI 的发展来说,研究团队的本次观察能够为其指明重要方向。它意味着要实现更加接近人类认知理解的 AI,就必须让 AI 突破当前以规模扩张和统计模式匹配为核心的范式。要想让 AI“从 token 发展到思想”、打造真正具备理解能力和推理能力的系统,需要遵循能够培育更丰富、具备上下文感知能力的概念结构的原则。

而研究团队提出的信息论框架在此方向上迈出了可量化的一步。它将促使学界进一步探索:大模型表面上的“低效性”或许恰恰正是构建类人稳健智能的关键特征。

研究团队指出,尽管大模型在广泛的类别对齐上与人类判断一致,但是在捕捉典型性等细粒度语义细微差别方面表现不足,并且其表征效率特征与人类存在显著差异。

其在论文中写道,大模型似乎被进行了高度优化,以便能够实现统计紧凑性,这让大模型形成了信息论意义上的高效表征,因为它们具有较低的簇熵和“更优”的损失函数值。这表明大模型倾向于最小化冗余,以及倾向于最大化统计规律性,而这可能是它们在大型文本语料库上训练的结果。

然而,这种对于平衡信息压缩的强烈关注,限制了大模型完整地编码基于原型的丰富语义细节的能力,而这些细节正是大模型实现类人深度理解的关键所在。

人类认知会优先考虑适应性的丰富度(adaptive richness)、情境灵活性(contextual flexibility)和广泛的功能实用性(尽管按照本次提出的框架来衡量的话,这会在统计紧凑性方面付出一定代价)。

研究团队认为,他们针对人类概念所观察到的高熵和损失函数值,很可能反映了人类认知系统针对更广泛复杂认知需求的一种优化。这些需求包括:为实现稳健泛化而形成的细微表征;支持强大的推理能力比如因果推理、功能推理和目标导向推理;通过可学习和可共享的结构实现有效沟通,并将概念锚定于丰富的多模态体验中。

其指出,大脑的神经结构本身可能天生倾向于分布式、上下文敏感且适应性强的表征,而非倾向于静态的最优压缩。因此,人类认知似乎会天然地“投资”于本次研究团队统计指标中所认为的“低效性”,以便换取更强的适应性和灵活性。

在特定的对齐任务之中,谷歌公司的 BERT 这样的小型编码器模型有着出色表现,这表明模型架构设计和预训练目标会显著影响大模型抽象出类人概念信息的能力。

本质上,大模型擅长统计可压缩性,它走的是一条与人类认知截然不同的表征道路。而人类认知更加注重适应性的丰富度和功能实用性,并且人类往往将这些置于纯粹的统计效率之上。这一核心差异至关重要,因为它突显了 AI 在追求类人理解方面的当前局限性,从而能为后续研究指明关键方向。

图 | 相关论文(来源:arXiv)

大模型中的意义之谜

据了解,人类通过语义压缩将多样实例映射为抽象表征,在保持意义完整的同时将知识组织为紧凑的类别体系,例如知更鸟和蓝松鸦都属于鸟类,大多数鸟类都会飞等等,这些概念反映了表达保真度与表征简洁性之间的权衡。

尽管大模型展现出了卓越的语言能力,但是人们依然不清楚它们的内部表示是否在压缩效率与语义保真之间达成了类似于人类的权衡。

率失真理论(RDT,Rate-Distortion Theory)是信息论的核心分支之一,用于研究在允许一定失真的条件下信息压缩的极限效率。信息瓶颈原理(IB,Information Bottleneck Principle)是信息论与机器学习交叉领域的核心理论,用于揭示智能系统在信息处理中的本质权衡。

在本次研究之中,研究团队基于率失真理论与信息瓶颈原理,构建了一个全新的信息论框架,以用于量化和比较上述两种认知策略。

研究中,研究团队将多种大模型的 token 嵌入与经典的人类分类基准进行比较分析,借此发现了若干关键差异。

具体来说,虽然大模型形成了与人类判断相一致的广泛概念类别,但它们很难捕捉到对人类理解至关重要的细粒度语义区别。

从更根本的层面看,大模型展现出对激进的统计压缩的强烈偏好,而人类的概念系统似乎更重视适应性的细腻差别与语境的丰富性,即便这在研究团队的衡量标准下意味着较低的压缩效率。

据介绍,人类语言结构所定义的范畴可能会因语言而异,但它们都被映射到一个共同的概念空间中。这一概念空间代表了人类共同的认知遗产,它实际上也构成了人类心智的认知版图。

人类形成概念的能力,也是智能的基石。基于此,人类能够从复杂信号中提取意义,以便应对信息过载。具体来说,人类通过识别关键特征、并将体验压缩为认知上可处理的信息摘要来实现了这一能力。

人类的概念架构通常呈现出层级化的特征,这在本质上是一种高效的语义压缩机制:它能将多样实例映射为紧凑表征,同时保留核心语义关系。同时,这一过程能在表征效率与关键语义保真度的保留之间取得平衡,而这种权衡是人类学习事物和理解事物的核心。

大模型在处理和生成人类语言方面表现出惊人的能力,能够执行许多看似需要深度语义理解的任务。然而,一个根本性谜题始终未解:大模型是否真正能像人类一样理解概念和意义?还是说它们的成功主要源于对海量数据集进行复杂的统计模式匹配?

鉴于人类能够轻松地将大量输入提炼为紧凑且有意义的概念,而这一过程由信息压缩与语义保真度之间的内在权衡所主导,因此揭开上述谜题就显得尤为重要。

作为人类认知的思维支架,概念系统能够实现高效信息解析、稀疏数据泛化以及丰富语义交流。为了让大模型超越表层模仿从而实现更加接近人类的理解,关键在于要研究它们的内部表示如何在信息压缩与语义保留之间做出权衡。

那么,大模型究竟是发展出了与人类思维的效率和丰富性相媲美的概念结构?还是采用了根本不同的表征策略?

为了解决这个问题,研究团队引入了一种基于信息论的新型定量方法。他们开发并应用了一个基于率失真理论和信息瓶颈原理的框架,系统地比较了大模型和人类概念结构如何在表征复杂性和语义保真度之间取得平衡。

需要说明的是,研究团队采用认知心理学领域的经典数据集来刻画人类的分类行为,并以此作为关键的人类认知基准。与此同时,他们针对这些经典数据集进行数字化处理并公开发布。

而研究团队所提出的框架专门用于剖析这些不同系统如何在压缩与语义之间权衡。通过针对多种大模型的比较分析,其揭示了它们在表征策略上的差异。

尽管大模型通常能够形成与人类判断相符的宽泛概念类别,但它们往往无法捕捉对人类理解至关重要的细粒度语义差异。

更为关键的是,研究团队发现了一种明显的优先级差异:即大模型倾向于强烈而激进的统计压缩,而人类更偏好适应性的细腻差别和语境的丰富性——即便这可能会以牺牲纯粹的压缩效率为代价。

这种分歧突显了人类与 AI 的根本差异,并为开发具有更人性化概念理解的 AI 指明了方向。

以人类认知为基准

研究团队表示,从实证角度研究大模型表征与人类概念结构之间的关系需要两个关键要素:可靠的人类分类基准和多样化的大模型选择。

本次工作中的比较研究,以认知心理学经典研究中关于人类分类过程的实证数据为基准。后者为人类如何形成概念、判断类别归属以及感知典型性提供了丰富的实证证据。

与许多可能存在噪声的现代众包数据集不同的是,这些经典基准由认知科学专家精心设计,反映的是深层的认知模式而非表面关联的认知模式,且根植于当时蓬勃发展的概念结构理论。

具体来说,研究团队重点选取了上个世纪的以下三项开创性研究:

1973 年,美国加州大学伯克利分校教授埃莉诺·罗施(Eleanor Rosch)针对语义范畴进行了探索。该成果认为,范畴是围绕着“原型”成员、而非围绕严格且平等共享的特征来组织的。相关数据集涵盖了 8 个常见语义范畴中的 48 个项目比如家具和鸟类,这些项目还被进行了原型性排名,例如知更鸟是典型的鸟类,而蝙蝠则是不典型的鸟类(它实际上是哺乳动物)。

1975 年,埃莉诺·罗施(Eleanor Rosch)进一步详述了语义范畴在认知中的表征方式,针对十个范畴中的 552 个项目提供了广泛的典型性评级,例如橙子是典型的水果,南瓜则是典型性较低的水果(实际上在日常生活中南瓜主要被作为蔬菜食用)。

(来源:https://psychology.berkeley.edu/people/eleanor-h)

1978 年,美国约翰霍普金斯大学教授迈克尔・麦克洛斯基(Michael McCloskey)与美国普林斯顿大学山姆·格拉克斯伯格(Sam Glucksberg)研究了自然类别的“模糊”边界,表明类别归属通常是渐进分级的而非绝对的。相关数据集涵盖 18 个类别中的 449 个项目,包含典型性评分和类别归属确定性评级。例如,连衣裙是典型的衣物,而创可贴的典型性则比较低。

(来源:https://cogsci.jhu.edu/directory/michael-mccloskey/)

尽管这些数据集源自不同的研究团队、且理论侧重点各不相同,但它们均采用了严谨的实验设计,并提供了关于类别归属和项目典型性的数据。基于此,本次研究团队整合了这些研究的数据,创建了一个涵盖 34 个类别、1049 个项目的统一基准。目前,研究团队已将该数据集进行数字化和开源。

(来源:arXiv)

所选模型涵盖当前主流架构范式

在本次研究之中,研究团队纳入了多种类型的大模型,以便评估概念表征如何随计算架构和规模的不同而变化。

这一选定的模型涵盖了当前主流的架构范式,并覆盖了从 3 亿到 720 亿参数的广泛规模区间。所采用的大模型大多数是仅解码器自回归模型,包括:

  • 6 个 Llama 系列模型(参数规模从 10 亿到 700 亿,如 Llama 3.1 700 亿参数模型);
  • 5 个 Gemma 系列模型(20 亿到 270 亿参数);
  • 13 个 Qwen 系列模型(5 亿到 720 亿参数);
  • 4 个 Phi 系列模型(如 Phi-4);
  • 1 个 Mistral 70 亿参数模型。

在相关分析之中,研究团队主要采用 BERT 系列中的纯编码器架构模型。对于每个大模型,研究团队从其输入嵌入层中提取静态的 token 级嵌入。这一选择使得他们的分析与人类分类实验中典型的无上下文刺激特征相契合,从而确保了表征基础的可比性。

(来源:arXiv)

总的来说,为了解析大模型与人类认知如何应对“意义表征”这一根本性挑战,研究团队构建了一个信息论分析框架。其表示,他们所提出的信息论框架和损失函数目标,为指导和评估模型实现更加类人的平衡能力提供了一种潜在工具。

对于认知科学而言,大模型凭借其独特的优化偏向性,成为极具价值的计算参照样本。通过对比大模型的操作策略与人类表现,能够揭示塑造人类概念形成的独特约束条件和多维目标,从而为检验认知理论提供强有力的实验平台。

这些发现阐明了当前 AI 和人类认知结构之间的关键差异,并为构建更符合人类概念表征的大模型指明了方向。研究团队在论文中表示,学界的相关后续研究应着力探索能够主动培育更丰富、更具语义细微差别的概念结构的设计原则。

参考资料:

https://arxiv.org/pdf/2505.17117

排版:溪树

相关内容

热门资讯

以“圳盒心意”致敬创新之城 又... 深圳商报•读创客户端记者 陈姝 8月29日,华为智能生活馆·深圳福田星河COCO Park正式开业。...
贝壳找房以科技重构居住服务范式 VR看房 “设牛”荣获2024年“人工智能创新应用典型案例” 小区MR产品空中鸟瞰与地面漫游 “...
英伟达入局、谷歌加码,MIT孵... 当地时间 2025 年 8 月 28 日,从美国麻省理工学院剥离出来的核聚变初创公司 Commonw...
披上AI外衣,凯度能否打破厨电... 撰文 | 张 宇 编辑 | 杨博丞 题图 | 图虫创意 AIGC 8月22日,高端厨电品牌凯度举行了...
如果职场HR是“AI员工” 求... 上海市第二届人力资源服务业创新发展大会今天举行,记者发现,上海的人力资源服务业,正在和重点新型产业深...
《时代》发布年度AI 100人... 今日,《时代》周刊发布了2025年度AI领域最具影响力的100人名单。 名单中包括了众多AI明星,...
江苏有线打造“幸福康养标准间” 来源:滚动播报 (来源:新华日报) 本报讯 (记者 李嘉豪) 8月28日,国家重点研发计划“基于家庭...
重铸聚酯薄膜“筋骨” 来源:市场资讯 (来源:中化新网) 在聚酯薄膜行业向轻薄化与功能化迈进的进程中,挺度不足成为制约其发...
展示多行业全链路智能化应用,斑... 深圳商报·读创客户端首席记者 袁静娴 8月27日,IOTE 2025第24届国际物联网展在深圳国际会...
打工人出差又烦又累?阿里商旅推... 8月28日,阿里商旅发布一站式AI商旅解决方案。阿里商旅AI包括员工差旅智能体和企业管理智能体两大模...
【2025数博会】南方电网:电... 8月28至30日,中国国际大数据产业博览会(以下简称数博会)在贵阳举行。南方电网公司以“数聚电网·智...
科技赋能筑根基 创新驱动谱新篇 来源:滚动播报 (来源:中国航空报) 何川 中航重机将科技创新作为驱动产业升级的核心引擎,以“构...
厦门CNC数控车床加工中的材料... 在现代制造业中,数控车床加工技术的应用愈加广泛,尤其是在高精密零件的制造上。随着科技的不断进步,数控...
9月7日至8日凌晨可赏月全食 一场震撼人心的天文奇观即将上演。记者从深圳市天文台了解到,9月7日夜间至8日凌晨,我国将迎来一次观测...
美16岁少年自杀,家人指控Ch... 近期,一起涉及美国加州家庭的悲剧性事件,将全球知名的人工智能公司OpenAI推上了风口浪尖。这起事件...
阿里云超预期增长:增速26%创... 央广网北京8月29日消息(记者殷雨婷)8月29日,阿里巴巴集团公布新季度业绩,阿里云实现超预期增长,...
青翼物联:智能设备的“专用网络... 本文将深入探讨4G物联卡的工作原理、应用场景、技术优势以及未来发展趋势,以期为读者揭开智能设备“专用...
黄陵矿业公司二号煤矿打好灾害防... ■记者 史超 通讯员 张仕昕 雷腾飞 近年来,陕煤集团黄陵矿业公司二号煤矿锚定煤矿灾害防治这一安全...
无人机灾害现场勘察平台如何重塑... 在灾害发生的危急时刻,第一时间的信息是黄金,是生命线。传统的灾害现场勘察往往受制于环境险恶、通行受阻...
消费创新、智能向善,看人工智能... 新华社北京8月27日电(记者陆宇航、余蕊) 近日印发的《国务院关于深入实施“人工智能+”行动的意见》...