阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作
创始人
2024-02-02 17:07:06
0

原标题:阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

会操纵手机的智能体,又迎来了全新升级!

新的Agent打破了APP的界限,能够跨应用完成任务,成为了真·超级手机助手。

比如根据指示,它可以自行搜索篮球比赛的结果,然后根据赛况在备忘录中撰写文稿。

来自阿里的一篇最新论文,展示了全新手机操纵智能体框架Mobile-Agent,可以玩转10款应用,还能跨越APP完成用户交给的任务,而且即插即用无需训练。

依托多模态大模型,整个操纵过程完全基于视觉能力实现,不再需要给APP编写XML操作文档。

在Mobile-Agent还只有演示视频的时候,就已经让一众网友为之惊艳:

和树莓派结合到一起,将完爆Rabbit R1(一款大模型硬件)。

想象一下如果它支持语音操纵,并且学会了说话……

那么,Mobile-Agent操纵手机到底有多6呢?

支持跨应用任务

目前,Mobile-Agent已经学会了十个APP的操作,以及一些跨应用任务。

比如搜索导航路线、帮忙在购物网站下单,它总能精准找到搜索框并完成目标。

也可以“刷”视频,然后点赞评论,看上去就像熟练的老手。

甚至是安装应用、修改系统设置,也难不倒它。

而Mobile-Agent支持的跨应用操作,也是让“手机助手”更加接近人类……

只见它打开天气预报软件,然后迅速根据读取到的天气数据在备忘录中生成了报告。

而在Mobile-Eval数据集上的测试结果也显示,Mobile-Agent操纵手机的效率已经达到了人类的80%。

研究人员在10款APP和跨应用任务上各测试了三种指令,收集了是否成功(SU)、操作评分(PS)、相对效率(RE)和完成率(CR)四项指标。

其中SU只有成功和不成功两种情况,RE是Agent所需操作步骤数和人类所需步骤数的比值,CR则是Agent相对于人类操作的完成比例,PS则以打分形式得出。

结果,针对三种指令,Mobile-Agent的平均完成率都在90%以上,成功次数也不低于80%。

而且,与此前的智能体不同,Mobile-Agent不需要依赖应用说明文档,而是完全依靠视觉能力实现。

基于GPT-4V实现

具体来说,Mobile-Agent基于最强多模态大模型GPT-4V实现。

通过视觉感知模块,Mobile-Agent从设备的屏幕截图中准确定位视觉和文本元素文本和图标。

这一过程涉及到使用OCR工具和CLIP模型来确定图标的位置。

通过这些视觉信息,Mobile-Agent能够将语言模型生成的操作指令映射到具体的屏幕位置,从而执行点击等操作。

在执行任务时,Mobile-Agent首先接收用户的指令,然后根据当前屏幕截图、操作历史和系统提示生成下一步操作。

这个过程是迭代进行的,直到任务完成。

Mobile-Agent还具备自我规划能力,能够根据操作历史和系统提示自主规划新的任务。

此外,它还引入了自我反思机制,在执行过程中,如果遇到错误或无效操作,它会根据屏幕截图和操作历史进行反思,尝试替代操作或修改当前操作的参数。

目前,研究人员已经在GitHub中开源了Mobile-Agent测试过程中生成的指令记录,程序代码也已经发布,未来还计划推出APP版本。

感兴趣的小伙伴可以试一试了~

GitHub主页:

https://github.com/X-PLUG/MobilAgent

论文地址:

https://arxiv.org/abs/2401.16158

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关内容

热门资讯

雷军宣布:小米YU7月底震撼登... 雷军近日在微博上透露,备受瞩目的小米YU7即将于本月底震撼发布。与此同时,他还预告了多款重磅新品的亮...
emoji跨平台显示差异惹争议... 今日,“苹果用户再也不敢乱用emoji表情了”的话题冲上热搜榜。 博主测试发现,苹果的emoji,...
格力主导ISO制冷新国标落地,... 6月12日,格力电器在珠海举办了一场盛大而特别的全球发布。 没发布任何一款新品,也未推出任何一项新技...
华为发布“天才少年挑战课题” ... 其中,智能联接&计算的课题有:自主智能无线通信架构与关键技术研究、昇腾强化学习系统关键技术研究、AI...
读书丨人工智能:引领新一轮科技... 人工智能 人工智能,是一个以计算机科学为基础,由计算机、心理学、哲学等多学科交叉融合的交叉学科、新...
Nature子刊,北大团队使用... 编辑 | 白菜叶 细胞间通讯(CCC)是确保生物系统和谐运作的基本生物学过程。 越来越多的证据表明,...
智慧园区的创新发展与趋势 近年来,我国对智慧园区的建设与发展愈发重视,各部门相继出台一系列政策大力支持和引导园区建设。而通过运...
原创 华... 华为Pura80系列2025年6月11日正式发布,影像方面迎来重磅升级,售价和上一代保持一致,加量不...
核心网年收入不足1亿,震有科技... 6月12日晚,震有科技(688418.SH)发布定增预案,拟募资不超过10.96亿元,用于建设“卫星...
虚拟现实“造梦” 探路影院未来 中新社上海6月16日电 题:虚拟现实“造梦” 探路影院未来 中新社记者 王笈 戴上头显设备,坐入球状...
618换机就选华为畅享系列,超... 随着618年中大促进入最后冲刺阶段,消费者们纷纷开始寻找高性价比的产品。而华为畅享系列凭借其卓越的续...
毕业论文拥抱AI 边界如何定? 正值2025年毕业季,关于“论文AI率”的讨论冲上热搜。一些高校在传统的查重、答辩等流程之外,新增了...
11万股民热泪盈眶!江苏无锡的... 先导智能经历了一轮“过山车”行情。 2015年5月,先导智能(300450.SZ)登陆资本市场,发行...
原创 专... 今日,成都市首批智能机器人实景验证活动举行,在东御街88号、红星路、天府广场、泡桐树小学、武侯祠五个...
从手术到病房,临安医院的“机器... 潮新闻客户端 记者 郑佳颖 通讯员 夏陈添 指导患者出入院流程、针对高血压、糖尿病等常见慢性病,提供...
腾讯云首次亮相科技盛会Viva... 巴黎时间6月11日-13日,有着“欧洲科技春晚”之称的盛会 Viva Technology 2025...
银发经济崛起中的技术温度:英科... 银发经济蓬勃发展,老年群体的健康管理、便捷出行与生活品质需求激增。值此父亲节健康关怀聚焦之际,英科医...
未来图灵诚邀您寻找“下一个De... 2025年,全球AI行业正经历“技术达尔文主义”的残酷筛选,OpenAI、谷歌等巨头用GPT-5、G...
深度智控——用AI重构能效极限... 在AI技术驱动的革命浪潮中,深度智控凭借“PhyAI”的前沿技术,正成为工业能效智控领域的引领者与破...
罗永浩数字人直播带货了,开播2... 罗永浩不会错过任何一个风口,这次是数字人直播带货。 6月15日下午17:00,数字人罗永浩和数字人朱...