这“只”有火眼金睛的AI“小猴子”,华科大团队研发!
创始人
2024-01-08 16:23:03
0

原标题:这“只”有火眼金睛的AI“小猴子”,华科大团队研发!

湖北日报讯(通讯员汪伟颋、高翔)近日,华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。

图为团队将Monkey代码在全球最大的代码托管服务平台GitHub上开源

多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在众多场景中展现了惊人的能力。Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。此外,Monkey在文本密集的问答任务中显示出显著的优势,甚至在某些样本上超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。

Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中,Monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有Monkey和GPT-4V能将其准确地识别为作者名。

这样惊人的描述能力是怎么做到的?目前,几乎所有多模态大模型都需要运用网上爬取的图文对数据集,这些数据集只能进行简单的图文描述,无法满足大分辨率图片的需求。Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具的特性,打出一套威力十足的“组合拳”,大幅度提升描述的准确性和丰富程度。“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”白翔教授说,“我们团队从2003年开始便从事图像识别研究,去年我们又从海外引进了专攻多模态大模型的青年人才,Monkey的最终方案是大家一起反复讨论,尝试了10余种方案后最终确定的。”白翔教授说。

Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

据了解,目前业内能处理的图片最大分辨率为448×448像素。而想要进一步提升处理能力,需要投入十分高昂的算力成本。如何更低成本扩大输入分辨率?该团队骨干青年教师刘禹良介绍,团队采用了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,就能提取更多局部特征。

“未来,我们希望Monkey更强大,真正成为神通广大的‘孙悟空’!”对这“只”小猴子,白翔教授信心满满。

相关内容

热门资讯

2025年大湾区科学论坛拟于1... 南方财经全媒体记者马嘉璐 广州报道 视频制作:陈梦璇 大湾区科学论坛正在成为具有广泛国际影响力的高端...
5.5G来了,5G是不是要退场... 原标题:5G从普惠性连接走向精准化赋能 最近,一些北京用户发现手机上出现了5G-A信号。5G-A可以...
深圳市华迅光通信申请路由器硬件... 金融界 2025 年 5 月 17 日消息,国家知识产权局信息显示,深圳市华迅光通信有限公司申请一项...
赋能企业级移动应用 CFCA ... 移动办公与移动金融为企业有效提升业务丰富性、执行便捷性。与此同时,“安全”始终是移动办公与移动金融都...
中国科学院理化所公众科学日来了... 在-110℃的环境中“冻”一分钟是什么感觉?中国科学院理化所2025年公众科学日活动5月17日举办,...
共绘数字时代合作新蓝图 央广网西安5月17日消息(记者陈锵)5月15日,以“共享数字发展新机遇,共建中拉网络空间命运共同体”...
财联社汽车早报5月17日 国家数据局:着力发展智能网联新能源汽车等新一代智能终端及智能制造装备 5月16日,国家数据局综合司印...
资源开发利用数字化管理 “中国... 16日,全国首个地热资源数据融合平台——“中国地热一张图”大数据应用平台在福建上线,为我国地热资源的...
让荔枝抢“鲜”出发 这里用无人... 眼下,广东茂名迎来荔枝采收旺季。今年,当地启用智慧无人机运输,创新打造荔枝运输“空中快道”,通过低空...
绽放“她”力量!一起走近航空报... “她”用细腻如丝的思维编织科研经纬 “她”用坚韧如钢的意志攻克技术壁垒 “她”用坚定信念和精湛专业为...
飞向北京·飞向太空!全国青少年... 极目新闻记者 郑力强 通讯员 马子乾 5月17日,2025年“飞向北京·飞向太空”全国青少年航空航天...
天津:支持算力技术攻关和平台建... 钛媒体App 5月17日消息,天津市人民政府办公厅印发《天津市促进人工智能创新发展行动方案(2025...
卢伟冰已准备好钱:准备买台小米... 快科技5月17日消息,今日晚间,小米集团总裁卢伟冰开启了一场直播活动,他在直播中表示,下周举行的小米...
汇通鸿泰取得防水防尘音箱专利,... 金融界2025年5月17日消息,国家知识产权局信息显示,山西汇通鸿泰电子科技有限公司取得一项名为“一...
2025世界雷达博览会开幕 李... 合肥5月17日电 (记者 孙自法)2025第十一届世界雷达博览会17日在安徽合肥开幕。中国科学院和中...
财联社汽车早报「5月17日」 国家数据局:着力发展智能网联新能源汽车等新一代智能终端及智能制造装备 5月16日,国家数据局综合司印...
以全球视野观国企科技创新:经验... 科技创新是增强国企核心功能、提升核心竞争力的关键变量,也是服务国家战略、助力实现中国式现代化的重要途...
黑龙江首家万兆光网开通 万兆应... 哈尔滨5月17日电(刘振宇 王立光 记者姜辉)16日,工业和信息化部在黑龙江省内唯一一个万兆试点园区...
甘肃张掖“太空信使”划破苍穹 中新网兰州5月17日电 (戴文昌)17日,甘肃张掖“神启号02星”搭载朱雀二号改进型(遥二)运载火箭...
首次公布!我国空间站内发现新物... 近日,科研人员首次公布在我国空间站发现的一个微生物新物种,并 将其命名为“天宫尼尔菌(Niallia...