计算机界诺贝尔奖官宣:2024ACM图灵奖授予强化学习领域的奠基人
创始人
2025-03-06 21:21:32
0

刚刚,美国计算机学会 ACM 今天宣布 Andrew Barto 和 Richard Sutton 获得 2024 年 ACM A.M.图灵奖,以表彰他们开发了强化学习的概念和算法基础。就强化学习而言,从 20 世纪 80 年代开始,Barto 和 Sutton 在其一系列论文中介绍了主要理念,构建了数学基础,并开发了的重要算法——这是创建智能系统的最重要方法之一。

ACM 主席 Yannis Ioannidis 表示:“Barto 和 Sutton 的工作展示了应用多学科方法应对我们领域长期挑战的巨大潜力。从认知科学、心理学到神经科学的研究领域激发了强化学习的发展,这为 AI 的一些最重要的进展奠定了基础,并让我们更深入地了解到大脑的工作原理。Barto 和 Sutton 的工作并不是我们已经跨越的垫脚石。强化学习仍在不断发展,并为计算和许多其他学科的进一步发展提供了巨大的潜力。这个领域最有声望的奖项对于他们而言,实至名归。”谷歌高级副总裁 Jeff Dean 说道:“艾伦·图灵在 1947 年的一次演讲中提到‘我们想要的是一台能够从经验中学习的机器’。由 Barto 和 Sutton 开创的强化学习直接回答了图灵的问题。他们的工作是过去几十年 AI 进步的关键。他们开发的工具仍然是 AI 繁荣的核心支柱,并取得了重大进展,吸引了大批年轻研究人员,并带动了数十亿美元的投资。RL 的影响将延续到未来。谷歌很荣幸赞助 ACM A.M.图灵奖,并向那些塑造了改善我们生活的技术的个人致敬。”

Andrew Barto 是马萨诸塞大学阿姆赫斯特分校信息与计算机科学系的名誉教授,被誉为强化学习领域的先驱之一。他于 1970 年在密歇根大学获得数学学士学位,随后在 1975 年获得计算机与通信科学的博士学位。Barto 在 1977 年加入马萨诸塞大学阿姆赫斯特分校,开始了他的学术生涯,并在多个职位上任职,包括副教授、教授和系主任。Barto 在强化学习领域的贡献不可小觑。他与他的博士学生 Richard Sutton 合作,从 20 世纪 80 年代开始,系统地介绍了强化学习的主要理念,构建了数学基础,并开发了重要的算法。他们的工作为创建智能系统提供了重要的方法论支持。Barto 和 Sutton 共同撰写了经典教材《Reinforcement Learning: An Introduction》,该书至今仍是该领域的标准参考书目,被引次数已超过 75,000 次。Barto 因其在强化学习领域的开创性工作获得了多项荣誉,包括马萨诸塞大学神经科学终身成就奖、IJCAI 卓越研究奖和 IEEE 神经网络学会先锋奖。他是电气电子工程师协会(IEEE)的会员,也是美国科学促进协会(AAAS)的会士。

图丨Andrew Barto(来源:College of Information and Computer )

Richard Sutton 是阿尔伯塔大学计算机科学教授,同时也是 Keen Technologies 的研究科学家,并担任阿尔伯塔机器智能研究所(Amii)的首席科学顾问。Sutton 在强化学习领域的影响力深远,被认为是现代强化学习的奠基人之一。他在 20 世纪 80 年代与 Andrew Barto 合作,共同推动了强化学习的发展。Sutton 于 1978 年在斯坦福大学获得心理学学士学位,随后在马萨诸塞大学阿姆赫斯特分校获得计算机与信息科学的硕士和博士学位。他的研究兴趣主要集中在决策者与环境相互作用时所面临的学习问题,认为这是智能的核心问题。Sutton 在强化学习领域的贡献包括时序差分学习、策略梯度方法和 Dyna 架构等。Sutton 的著作《Reinforcement Learning: An Introduction》与 Andrew Barto 共同撰写,成为该领域的经典教材,影响了无数研究人员和学生。他曾在 2017 年至 2023 年期间担任 DeepMind 的杰出研究科学家,并在多个学术机构任职,积累了丰富的研究和管理经验。Sutton 因其在强化学习领域的卓越贡献获得了多项荣誉,包括国际人工智能联合会议(IJCAI)卓越研究奖和加拿大人工智能协会终身成就奖。他的工作不仅在学术界产生了深远影响,也为工业界的应用提供了重要支持。

图丨Richard Sutton(来源:University of Alberta)

强化学习作为机器学习领域的重要分支,有着丰富的发展历程。其起源可追溯到 20 世纪 50 年代,当时科学家们开始探索让计算机像人类一样通过试错来学习最优策略的方法。早期的理论奠基工作为后续发展打下了基础,但受限于计算能力和数据量,强化学习在当时并未得到广泛应用。到了 20 世纪 80 年代,Richard Sutton 和 Andrew Barto 等学者做出了开创性贡献。他们系统地阐述了强化学习的基本概念和理论框架,提出了时间差分学习算法,如 Q-learning 。Q-learning 能够在不依赖环境模型的情况下,通过不断更新状态 - 动作对的 Q 值来学习最优策略,大大简化了学习过程,为强化学习的发展注入了强大动力。进入 21 世纪,随着计算机性能的大幅提升和大数据的爆发式增长,强化学习迎来了新的发展机遇。深度学习的兴起更是为强化学习带来了革命性变化,深度强化学习应运而生。深度神经网络强大的特征表示能力与强化学习的决策优化能力相结合,在诸多领域展现出卓越性能。在游戏领域,AlphaGo 利用深度强化学习击败人类顶尖棋手,震惊世界;在机器人控制方面,强化学习使机器人能够自主学习完成复杂任务,如行走、抓取物体等;自动驾驶领域,强化学习也在路径规划和决策制定中发挥着重要作用。

尽管 Barto 和 Sutton 的算法是在数十年前开发的,但通过与深度学习算法的结合,强化学习的实际应用在过去十五年里取得了重大进展。这表明他们的研究具有持久的影响力,并为未来的技术发展奠定了基础。他们的成就激励了成千上万的研究人员投身于强化学习领域,推动了该领域的持续发展和创新。

参考资料:

https://amturing.acm.org/

运营/排版:何晨龙

相关内容

热门资讯

戴森发布 PencilVac:... 大学刚毕业的时候,我一个人租住在一个小房子里。面积不大,物件不少,做起清洁来辗转腾挪。我想过买一台吸...
想要加密文件?文件加密的方法有... 我们的生活和工作都离不开各种电子文件,从个人的照片、日记到企业的商业机密、合同文件,这些数据蕴含着巨...
原创 一... 自从一加与OPPO合并后,两大品牌各有定位,比如一加专注于游戏性能方面、OPPO专注于影像方面,两大...
原创 百... 百度暴涨的AI收入,是外界对这家公司AI技术的最大认可。 作者|杨知潮 哪个大厂的AI技术最强? ...
破百!花都人医“人工心肺”为生... 近期,广州市花都区人民医院ECMO(体外膜肺氧合)技术临床应用累计突破100例! 作为广州北部地区最...
政策暖风频吹 机器人产业迎强劲... 本报记者 郭冀川 人形机器人半程马拉松在北京亦庄鸣枪开跑的余温尚存,5月25日,《CMG世界机器人大...
天津构建“低空医疗”服务新通道... 5月21日9时25分,一架搭载模拟急救血液的无人机从滨海新区塘沽中心血站升空,精准降落在市肿瘤医院滨...
展品变爆品 文创成“顶流” 南方日报讯 Molly形象的奶茶师在港风茶餐厅熟练“摇奶茶”,奶龙AI玩伴机器人讲故事当“幼师”,三...
中国科学院举办专题展览,再现5... 新京报讯(记者张璐)5月25日,“科学人生·百年”主题宣传活动在中国科学院学术会堂举办。“科学人生·...
400场活动点燃广州科技活动周... 南方日报讯(记者/李鹏程)5月24日,2025年广州科技活动周开幕式在广州市第一中学举行。科技活动周...
在阜阳举办的这场医疗大会,他们... 2025年5月22日, 由安徽省首席信息官协会医疗专委会联合中国电信安徽公司举办的“县(区)域医院信...
前沿技术让传统文化“活”起来—...   新华社深圳5月25日电(记者陈宇轩)点击屏幕,选择一块唐代的石碑,历经千年风霜,石碑上的汉字已经...
Win10技术支持渐入倒计时 从最初的犹犹豫豫,到最终的勉强接受使用,Win10 的发展历程堪称充满波折。在其刚刚开始崭露头角,试...
影视机械臂、仿生熊猫……AI摇... 为期5天的第二十一届中国(深圳)国际文化产业博览交易会正在广东深圳举行。本届文博会面向全球集中展示1...
华为ICT大赛2024-202... 5月24日,华为ICT大赛2024-2025全球总决赛闭幕式暨颁奖典礼在深圳举行。本届大赛规模创历史...
武船重工申请一种折弯机器人及其... 金融界2025年5月24日消息,国家知识产权局信息显示,武汉船用机械有限责任公司申请一项名为“一种折...
【深圳特区报】文博会成了机器人... ▲机器人弹古筝。 ▼机器人写书法。 观众与机器人下棋。 深圳特区报记者 周红声 杨浩翰 毕晗 胡...
原创 满... 在智能手机飞速发展的今天,我们惊喜地发现,曾经被贴上“低配”“容易卡顿”标签的百元机市场,如今也迎来...
雄安“创新链”与“产业链”这样... 河北日报客户端讯(记者李畅)中国地质大学(北京)研发的绿色建材技术与北京科技大学研发的建筑多能供能技...
江苏昇业取得管段切割用金属圆锯... 金融界2025年5月24日消息,国家知识产权局信息显示,江苏昇业机械科技有限公司取得一项名为“一种管...