国产多模态大模型AI“小猴子”实现“看图说话”
创始人
2024-01-08 05:17:08
0

原标题:国产多模态大模型AI“小猴子”实现“看图说话”

科技日报记者 吴纯新 通讯员 汪伟颋 高翔

12月11日,记者从华中科技大学获悉,该校软件学院白翔教授领衔的VLRLab团队正式发布多模态大模型——“Monkey(猴子)”。该模型具备“观察”世界的技能,可对图片进行深入问答交流和精确描述。

图为团队将Monkey代码在全球最大的代码托管服务平台GitHub上开源。

多模态大模型是一类可以同时处理和整合多种感知数据,如文本、图像、音频等的AI架构。近年来,这类模型在众多场景中展现出惊人能力。

据介绍,Monkey模型在18个数据集上的实验中表现出色,其在图像描述和视觉问答任务方面,以及文本密集的问答任务中显示出优势。

Monkey有一个显著特点,即其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能察觉到其他多模态大模型所忽略的内容。如对下图进行文本描述中,Monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。实验中,对图片左下角的文字,只有Monkey和GPT-4V能将其准确地识别为作者名。

据了解,目前,几乎所有多模态大模型都需要运用网上爬取的图文对数据集,这些数据集只能进行简单的图文描述,无法满足大分辨率图片的需求。

Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具特性,打出一套威力十足的“组合拳”,大幅提升描述的准确性和丰富程度。

“一个个工具就好比不同的零件,合理排列组合才能使其发挥最大作用。”白翔说,他所在团队从2003年开始便从事图像识别研究,Monkey的最终方案得益于团队一起反复讨论,尝试了10余种方案后才确定。

白翔介绍,Monkey的另一亮点是能处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

目前,业内能处理的图片最大分辨率为448×448像素。若想进一步提升处理能力,需投入十分高昂的算力成本。该团队骨干青年教师刘禹良介绍,团队采用创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备一个“放大镜”,放到合适的位置即可“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,以此提取更多局部特征。

“未来,我们希望Monkey更强大,真正成为神通广大的‘孙悟空’。”对这只“小猴子”,白翔信心满满。

(受访单位供图)

(来源:科技日报)

相关内容

热门资讯

工信部开始严抓智驾,为啥从业者... 高阶智驾团灭,以后就只剩辅助驾驶了? 在前几天的上海车展上,以前狂吹高阶智驾、智能驾驶的车企们,这次...
原创 从... 是孤独的巨人,还是碰撞的产物?超级木星有着混沌的过去 两颗巨行星碰撞时,一个更大的世界将会就此诞生。...
“五一”出游安全感拉满!北川 ... “五一”期间,北川羌族自治县公安创新运用“无人机+智慧警务”模式,通过高空巡查、实时喊话、智能调度的...
80余所高校设立储能本科专业 新型储能就像“超级充电宝”,可以在电力运行中调峰、调频、调压,对促进新能源开发消纳、保障电力系统安全...
工信部:加强通用大模型和行业大... 新华社北京5月4日电(记者张辛欣、周圆)记者近日从工业和信息化部获悉,下一步将加强通用大模型和行业大...
传承“五四”精神,谱写藏蓝青春... 青春因磨砺而出彩,人生因奋斗而升华。在莱西公安队伍中,有这样一群新时代青年民警,他们的梦想青春,以梦...
推动人工智能产业迈向更高水平 人工智能是引领新一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应,是培育和发展新...
【奋斗者 正青春】全国新时代青... 凌晨的中北大学实验室里,一盏孤灯常明。仪器与电子学院测控系主任刘文耀伏案整理实验数据,手边是厚厚一沓...
全市三百青年突击队挺立科技创新... 本报记者 王琪鹏 “青年是祖国的前途、民族的希望、创新的未来。”在科技强国建设的征程中,北京共青团以...
Mac上快速搭建宽带连接指南 为Mac配置宽带连接的完整指南 在数字化时代,稳定高效的网络连接对Mac用户至关重要。无论是通过有线...
中美日6G专利占比差距犹如断崖... 4月1日,东部战区在台湾海峡举行了海峡雷霆2025a演习。之前没有发通知,两天就结束了,这一消息震惊...
段建维:青春逐梦雄安 科创星火... 点击上方 “ 河北共青团 ” → 点击右上角“ ... ” → 点选“ ★”, 为...
深圳市亿锋智能技术取得集成式无... 金融界2025年5月3日消息,国家知识产权局信息显示,深圳市亿锋智能技术有限公司取得一项名为“一种集...
标柔取得一种水下专用同轴电缆专... 金融界2025年5月3日消息,国家知识产权局信息显示,标柔特种电缆(上海)有限公司取得一项名为“一种...
华升鑫取得抗变形的组合式PCB... 金融界2025年5月3日消息,国家知识产权局信息显示,深圳市华升鑫科技有限公司取得一项名为“种抗变形...
漫评:青年一代挺膺担当,书写“... “青春须早为,岂能长少年”。随着五四青年节的到来,广大青年再次成为社会各界关注的焦点。新时代的中国青...
浙江杭州:匠心点亮万家灯火 4月29日,刚参加完庆祝中华全国总工会成立100周年暨全国劳动模范和先进工作者表彰大会的倪萍,又回到...
我国应用无人平台远程开发的海上... 新华社深圳5月3日电作为应用无人平台远程开发的海上稠油油田,中国海油深圳分公司番禺11-12平台3日...
拥抱智算!中兴通讯智算服务器订... 近年来,以ChatGPT为代表的大模型爆发性增长,带动了智能算力需求飙升,一座座智算中心拔地而起,部...
华为申请到达角测量方法等专利,... 金融界2025年5月3日消息,国家知识产权局信息显示,华为技术有限公司申请一项名为“到达角测量方法、...