Meta、斯坦福大学用生成式AI实现3D空间环境人机交互
创始人
2024-01-08 20:00:41
0

原标题:Meta、斯坦福大学用生成式AI实现3D空间环境人机交互

(映维网Nweon 2023年12月12日)斯坦福大学和Meta旗下的FAIR团队日前介绍了一种突破性的人工智能系统:仅根据文本描述就可以在虚拟人和物之间产生自然的同步运动。

这个新系统名为CHOIS(Controllable Human-Object Interaction Synthesis/可控人-物交互合成),而它采用最新的条件扩散模型技术来产生无缝和精确的交互,比如“把桌子举过头顶,走路,放下桌子”。

展望未来,以后的虚拟生物将可以像人类一样流畅地理解和响应语言命令,而系统可以从语言描述中生成连续的人机交互。

团队指出,在3D环境中合成人类行为对于计算机图形学、嵌入式人工智能和机器人技术等应用至关重要。尽管人类可以毫不费力地在环境中导航和执行任务,但这对机器人和虚拟人而言是十分艰巨的挑战,因为每一项任务都需要人、物和周围环境之间的精确协调。

在另一方面,语言是表达目的意图的有力工具。在语言和场景背景的指导下,合成逼真的人类和物体运动是构建先进人工智能系统的基石。

斯坦福大学和FAIR团队认为,尽管现在已有研究在探索人-场景交互问题,但它们仅限于具有静态对象的场景,忽略了日常生活中频繁发生的高度动态交互。另外,尽管业界最近在动态人-物交互建模方面取得了进展,但相关方法只关注较小的对象,或者缺乏操纵多种对象的能力。即便存在探索操纵更大尺寸的各种物体,但它们依赖于过去的交互状态序列或物体运动的完整序列,无法单独从初始状态合成物体运动和人体运动。

所以在CHOIS的研究中,团队专注于从语言和初始状态合成涉及更大尺寸的不同对象的逼真交互。

从语言描述生成连续的人机交互带来了数个挑战。首先,我们需要生成逼真和同步的物体和人体运动。在交互过程中,人的手应该与物体保持适当的接触,物体的运动应该与人的行为保持因果关系。

其次,3D场景中经常有大量的物体,限制了可行运动轨迹的空间。因此,交互合成必须适应环境的混乱,而不是在一个空场景的假设下操作。

对于CHOIS,团队重点研究了从自然语言命令合成三维环境中人-物交互的关键问题,在语言和稀疏物体路径点的指导下生成物体运动和人体运动。

运动应该与语言输入中指定的指令保持一致,同时符合由3D场景几何导出的航路点条件定义的环境约束。为了实现这一点,研究人员采用条件扩散模型来同时生成同步的物体和人体运动,条件是语言描述、初始状态和稀疏的物体路径点。

为了提高预测物体运动的准确性,在训练过程中加入了物体几何损失。另外,他们设计了在采样过程中应用的guidance term,以提高生成交互的真实感。

实验证明了学习交互合成模块在系统中的有效性,可以在给定语言描述和3D场景的情况下产生连续的逼真和情景感知交互。

通过条件扩散模型,CHOIS系统可以模拟生成详细运动序列。当给定人类和物体位置的初始状态,以及所需任务的语言描述时,CHOIS就能够生成一系列运动。

例如,如果指令是将灯移近沙发,CHOIS就会理解这个指令,并创建一个逼真的动画,令人类化身拿起灯并将其放在沙发附近。

使得CHOIS特别独特的是,它使用稀疏的对象路径点和语言描述来指导动画。路径点充当对象轨迹中关键点的标记,确保运动不仅在物理上合理,而且与语言输入概述的目标保持一致。

CHOIS的独特之处同时在于它将语言理解与物理模拟结合在一起。传统模型往往难以将语言与空间和物理动作联系起来,特别是在更长时间的交互范围内,它们必须考虑诸多因素才能保持真实性。

通过解释语言描述背后的意图和风格,然后将它们解读成一系列尊重人体和所涉及对象约束的物理运动,CHOIS可以弥合了这一差距。系统确保了接触点(如手触摸物体)可以准确地呈现出来,并且物体运动与虚拟人施加的力一致。

CHOIS系统可以对一系列的领域产生深远的影响,特别是在动画和虚拟现实领域。如果人工智能能够解释自然语言指令并生成逼真的人机交互,CHOIS可以大大减少制作复杂场景动画所需的时间和精力,而且在虚拟现实环境中,CHOIS可以带来更加身临其境的交互式体验,因为用户可以通过自然语言命令虚拟角色,并看到它们以逼真的精度执行任务。

这种高水平的交互可以将VR体验从僵硬的脚本事件转变为对用户输入做出真实响应的动态环境。

相关论文:Controllable Human-Object Interaction Synthesis

研究小组认为,他们的研究是朝着创造可以在不同3D环境中模拟连续人类行为的先进人工智能系统迈出的重要一步。它同时为进一步研究从3D场景和语言输入中合成人机交互打开了大门,并可能会在未来带来更复杂的人工智能系统。

相关内容

热门资讯

向未来发问,激励更多“从0到1... 解放日报记者 俞陶然 科学家走红毯仪式是每年上海科技节的启动环节,今年的科学红毯秀与往年不同,人形机...
太空中的气象“哨兵”风云三号G... 风云三号G星是我国首颗低倾角轨道降水测量卫星,它在距离地球407公里的轨道上翱翔,这一较低的轨道高度...
济南恒瑞取得地基基础压力检测设... 金融界2025年5月17日消息,国家知识产权局信息显示,济南恒瑞工程检测有限公司取得一项名为“一种地...
民政部康复辅助器具重点实验室“... 深圳商报·读创客户端记者 赵鸿飞 2025年5 月17日,在深圳召开的第十三届国际骨科康复学术会议暨...
华晖五金取得防夹损的机械手夹具... 金融界 2025 年 5 月 17 日消息,国家知识产权局信息显示,东莞市华晖五金制品有限公司取得一...
全国首条全自动辐射板生产线在綦... 保温上料、铝板上料、盘管、检测、涂胶、刻印……5月13日,全国首条全自动辐射板生产线在重庆綦桥科技有...
原创 纪... 2016年,王亚平正处于事业的巅峰期,她的名字在宇航员队伍中熠熠生辉,成为了无数人心中的榜样。这位充...
报告:国家哲学社会科学文献中心... 北京5月17日电 (记者 李京泽)“学术期刊高质量发展研讨会暨国家哲学社会科学文献中心最受欢迎期刊报...
促消费四川解锁新赛道 首个全域... 四川日报全媒体记者 陈碧红 ●从5月16日持续至6月15日,采用全域联动模式,覆盖全省超1.1万家线...
天津康途取得电梯通用内招控制系... 金融界2025年5月17日消息,国家知识产权局信息显示,天津康途科技有限公司取得一项名为“一种电梯通...
深圳市整点科技取得新型鼻毛器专... 金融界2025年5月17日消息,国家知识产权局信息显示,深圳市整点科技有限公司取得一项名为“一种新型...
新质生产力的壮美图景 第19届杭州亚运会组织无人机表演,由1000架无人机组成了一个奔跑的“人”。 湖北武汉一列无人驾驶...
雄安变电站处处彰显 ″雄安质量... 中国经济报导:初夏的雄安新区,塔吊林立的建设工地上,一座银灰色的 "钢铁堡垒" 正拔地而起。走进 5...
原创 6... 618大促已经开始,不少用户准备在618期间选购一款旗舰手机,那么2025年哪些旗舰手机值得考虑?2...
上海英奇取得防碰撞测试用实验台... 金融界2025年5月17日消息,国家知识产权局信息显示,上海英奇电气科技有限公司取得一项名为“一种防...
2025中国数谷·西湖论剑大会... 5月10日, 主题为“数智无界 安全共生”的 2025中国数谷·西湖论剑大会在杭州召开。中国数谷是中...
中国电信(澳门)推出“湾区权益... 人民网澳门5月17日电 (记者富子梅)记者从中国电信(澳门)有限公司于16日举行的“服务澳门二十载,...
脑机接口技术助残疾人提升生活自... 新华社广州5月18日电(记者马晓澄)赵晋(化名)是一名23岁的年轻父亲,在一次意外事故中受伤,导致高...
苏州艾思泰取得双加工线切换机构... 金融界2025年5月17日消息,国家知识产权局信息显示,苏州艾思泰自动化设备有限公司取得一项名为“一...
我国自主研发,拿证了! 据海洋石油工程股份有限公司设计院16日消息,该院自主研发的5万立方米全潜式深远海智能渔业平台设计方案...