让大模型操纵无人机,北航团队提出具身智能新架构
创始人
2024-01-09 17:52:39
0

原标题:让大模型操纵无人机,北航团队提出具身智能新架构

赵浩然 投稿

量子位 | 公众号 QbitAI

进入多模态时代,大模型也会操纵无人机了!

只要视觉模块捕捉到启动条件,大模型这个“大脑”就会生成动作指令,接着无人机便能迅速准确地执行。

北京航空航天大学智能无人机团队周尧明教授团队等研究人员,提出了一种基于多模态大模型的具身智能体架构。

目前,这种架构已被应用于无人机的操控。

那么这种新的智能体表现如何,又有哪些技术细节呢?

“智能体即大脑”

研究团队利用大模型对多模态数据的理解能力,将真实物理世界的照片、声音、传感器数据等多源信息融合成能体的感知,将对于真实世界的执行器的操作作为智能体的行为。

同时,团队提出了一套“Agent as Cerebrum,Controller as Cerebellum”(智能体即大脑,控制器即小脑)的控制架构:

智能体作为大脑这一决策生成器,专注于生成高层级的行为;

控制器作为小脑这一运动控制器,专注于将高层级的行为(如期望目标点)转换成低层级的系统命令(如旋翼转速)。

具体来说,研究团队认为这一成果主要有三项贡献。

应用于实际的新型系统架构

研究团队提出了一种应用于实际机器人的新的系统架构,将基于多模态大模型的智能体具象化为大脑。

而机器人运动规划器与控制器则被具象化为小脑,机器人的感知系统类比为人的眼、耳等信息收集器,机器人的执行机构类比为人的手等执行器。

图1 硬件系统架构

这些节点通过ROS相连,通过ROS中消息的订阅与发布或服务的请求与响应实现通信,区别于传统的端到端的机器人大模型控制。

这一架构使得Agent可以专注于高层级命令的产生,对于高层级任务具备更强的智能性,对于实际的执行具备更好的鲁棒性和可靠性。

图2 软件系统架构 新型智能体

在这一架构下,作者构建了作为大脑的一种智能体AeroAgent。

该智能体主要包括三个部分:

  • 一个自动计划生成模块,具有多模态感知监测能力,同时擅长进行待机模式下的应急突发事件处理。
  • 一个多模态数据记忆模块,可以用于多模态记忆检索和反思,为智能体赋予少样本学习能力。
  • 一个具身智能动作模块,可以建立具身智能体与ROS上其他模块进行稳定控制的桥梁,这一模块提供了对于ROS上其他节点以操作为桥梁进行访问的能力。

同时,一个动作的完成,可能需要多次操作的交互以从传感器获取动作的执行所必需的参数,确保智能体可以根据综合态势感知及所具备的执行器来进行稳定的embodied action的输出。

图3 AeroAgent模块架构 连接大模型和ROS的桥梁

为了给具身智能体和ROS机器人系统建立桥梁,让Agent产生的操作能够正确地、稳定地发送给ROS并被其他节点成功执行,同时让其他节点所提供的信息让LMM能够读取与理解,团队设计了了ROSchain——

一个连接LLMs/LMMs与ROS的桥梁。

ROSchain通过一套模块和应用程序接口(APIs)简化了大型模型与机器人传感装置、执行单元和控制机制的集成,为智能体接入ROS系统提供了一个稳定的中间件。

为什么选择无人机

至于为什么选择无人机进行该系统架构的测试与模拟,研究团队也做了解释,这主要有三个原因。

首先,如今LMMs中所蕴含的web-scale的世界知识,多为第三人称视角,人型机器人等领域的具身智能是类似于以人类为主体出发的第一人称视角。

而无人机挂载的相机(尤其是下视相机)更加类似于第三人称视角(上帝视角)的具身智能;

另一方面,现阶段的LMMs无论是模型部署还是API服务,通常受限于计算资源导致响应有一定的延迟。

这对于自动驾驶等领域是一个应用的障碍,而无人机的任务规划由于其可以悬停,具备应对延迟的能力。

这两点都导致目前技术发展水平下无人机适合作为先驱进行相关理论与应用的验证。

第二,目前工业无人机领域,如山火救援、农林植保、无人放牧、电力巡检等,多由飞手与专家配合实际操作,智能化任务执行具有工业需求。

第三,从未来发展看,多智能体协同合作在物流、建筑、工厂等领域具备较为明显的需求。

而在这种领域中,无人机作为“上帝视角”的具身智能体,适合作为中央节点的领导者进行任务的分配,其他机器人可看作无人机的执行器的一环,所以这一研究也具有未来的发展前景。

团队在airgen的仿真器上进行了模拟实验,同时选用了DRL等方式作为对照组。结果如下:

在野外火灾搜救的场景中,AeroAgent获得了100分(标准化分数,下同)的成绩,平均每步为2.04分。

而单纯调用LLM或基于DRL的智能体都只获得了29.4分,平均每步0.2,不足AeroAgent的十分之一。

图4-1山火救援场景

在着陆任务中,AeroAgent也以97.4的总分和48.7的每步平均分超过了其他模型。

图4-2 海上机坪着陆场景

而在风机巡检的测试中,AeroAgent直接成为了唯一能完成该任务的模型。

图4-3 风力电机巡检场景

导航任务上,AeroAgent 4.44的每步均分,分别是DRL和纯LLM的40倍和近10倍。

图4-4 Airgen仿真实验

团队还在真实场景中进行了无人机系统的测试,以一个简单的受困群众引导实验为例进行了案例研究。

图5 受困群众引导案例实验

团队目前正以这一工作为基础,在某高原牦牛牧场进行无人放牧智能无人机的实验,探索其实际应用的可能性,并将以“予智能以具身”为目标,进行其他机器人/多机器人合作的智能体落地应用探索。

论文地址:

https://arxiv.org/abs/2311.15033

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关内容

热门资讯

带学生斩获160多个大奖!这名... 在AI和机器人火热的当下 谁能想到 早在2005年 海宁就诞生了 第一批学校机器人社团 此后更是拿奖...
(经济观察)广东加速打造人工智... 广州6月7日电 (记者 孙秋霞)近年来,广东密集出台一系列支持人工智能与机器人产业创新发展的政策措施...
原创 人... 人形设计的核心必要性,环境适配性:人类社会的物理环境(如门把手、楼梯、工具)均以人体工程学为基础设计...
柬埔寨官员呼吁中国企业助力柬农... 金边6月7日电 (记者 杨强)由中柬两国企业合作建设的柬埔寨首个香蕉供应链气体负压催熟库当地时间6日...
格力电器获得发明专利授权:“换... 证券之星消息,根据天眼查APP数据显示格力电器(000651)新获得一项发明专利授权,专利名为“换热...
武陟:梯度培育赋能企业“拔节生... 河南日报客户端记者 成安林 通讯员 成睿 6月6日,位于武陟经济技术开发区的焦作赛科中药生物科技有限...
准备干掉360整个市场部?周鸿... 每经AI快讯,6月6日晚间,360集团创始人、董事长周鸿祎在其个人微博账号发文称,“我准备干掉360...
“超越日本,中国首次跃居首位” 据《日本经济新闻》网站6月4日报道,中国在氢相关专利竞争力方面超越日本,首次跃居首位。中国企业主要在...
2025 年性价比超强的 6 ... 2025 年性价比超强的 6 款 512G 大内存手机:从地铁通勤到高原徒步,哪台是你的「搬砖神器」...
字节跳动CQC前掌门李彤离职,... 近日,字节跳动内部传出一则重要人事变动消息,其内容质量中心(Content Quality Cent...
电脑主机:数字世界的核心引擎 现代生活中,电脑已成为工作娱乐的重要工具。当我们注视显示器时,机箱里正进行着复杂的电子交响乐。这个方...
网络优化、智能屏蔽、应急保障…... 天津北方网讯:6月7日,2025年全国高考正式拉开帷幕。天津电信组建专业保障团队,通过网络优化、智能...
爱仕达获得实用新型专利授权:“... 证券之星消息,根据天眼查APP数据显示爱仕达(002403)新获得一项实用新型专利授权,专利名为“一...
大林橡胶取得一种振动筛料机构专... 金融界2025年6月7日消息,国家知识产权局信息显示,河南大林橡胶通信器材有限公司取得一项名为“一种...
卡奥斯等申请检修一体机专利,无... 金融界2025年6月7日消息,国家知识产权局信息显示,卡奥斯创智物联科技有限公司;佛山领智物联科技有...
三年、千亿陪伴新兴技术穿越产业... 当下,国内人工智能和机器人产业发展如火如荼,当各行各业开始千方百计拥抱人工智能和机器人产业之时,政府...
奥佳华获得发明专利授权:“颈背... 证券之星消息,根据天眼查APP数据显示奥佳华(002614)新获得一项发明专利授权,专利名为“颈背按...
上海淇玥信息技术申请去除内生性... 金融界2025年6月7日消息,国家知识产权局信息显示,上海淇玥信息技术有限公司申请一项名为“去除内生...
消息称苹果公司正扩大平台“游戏... IT之家 6 月 7 日消息,此前有许多消息显示苹果公司将在 WWDC25 中推出全新独立游戏应用,...
AI智能体未来之路:管控还是信... 在AI技术日新月异的当下,图灵奖得主、蒙特利尔大学教授Yoshua Bengio的声音尤为引人关注。...