华科大团队研发出具备出色的“看图说话”能力的AI“小猴子”
创始人
2024-01-08 22:55:40
0

原标题:华科大团队研发出具备出色的“看图说话”能力的AI“小猴子”

极目新闻记者 李碗容

通讯员 汪伟颋 高翔

12月11日,极目新闻记者从华中科技大学获悉,该校软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。

团队将Monkey代码在全球最大的代码托管服务平台GitHub上开源

多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在众多场景中展现了惊人的能力。据介绍,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。此外,Monkey在文本密集的问答任务中显示出显著的优势,甚至在某些样本上超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。

白翔介绍,Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中,Monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有Monkey和GPT-4V能将其准确地识别为作者名。

这样惊人的描述能力是怎么做到的?据介绍,Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具的特性,打出一套威力十足的“组合拳”,大幅度提升描述的准确性和丰富程度。

“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”白翔教授说,“我们团队从2003年开始便从事图像识别研究,去年我们又从海外引进了专攻多模态大模型的青年人才,Monkey的最终方案是大家一起反复讨论,尝试了10余种方案后最终确定的。”

Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

据悉,目前业内能处理的图片最大分辨率为448×448像素,想要进一步提升处理能力,需投入十分高昂的算力成本。如何更低成本扩大输入分辨率?该团队骨干青年教师刘禹良向记者介绍,团队采用了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,就能提取更多局部特征。

(来源:极目新闻)

相关内容

热门资讯

东航今年计划再接收10架C91... 东航C919客机再添一条定期商业航线。国产大飞机C919正式投入上海虹桥—深圳直达往返航线运营,成为...
Windows时光倒流:30年... 在过去 30 多年里,微软已经发布了 15 个版本的 Windows 操作系统,但即便到了今天,微软...
英伟达第三季度重磅!全新GB3... 英伟达CEO黄仁勋在2025年台北电脑展上发表了一场备受瞩目的主题演讲,他在会上宣布了一个振奋人心的...
原创 印... 刚刚宣布和巴基斯坦停火之后,印度又发生了一件大新闻:发射的地球观测卫星“EOS-09”在掌声刚落下后...
原创 雷... 5月19日早间,小米董事长兼CEO雷军通过微博宣布,小米将于5月22日晚7点召开主题为“新起点”的“...
算力互联网试验网来了!是什么?... 5月17日,在2025年世界电信和信息社会日暨国际电信联盟成立160周年纪念活动上,中国电信、中国移...
别再让手机整夜充电!牢记这几点... 为方便给手机充电 很多人会把充电器 插在插头上“随时待命” 充电器长期不拔会爆炸吗? 给手机充电时要...
SP导电炭黑从原理到应用的全面... SP导电炭黑,全名为Super P Conductive Carbon Black,是一种具有优异导...
在IDC机房托管有哪些好处? 为什么推荐大家在IDC托管机房呢?今天就带大家了解一下在IDC托管机房的优点。 成本效益 降低...
原创 神... 我国的载人航天工程在不断取得重大成就的同时,已经向全球展示了中国的航天技术,甚至在载人登月计划中,其...
怕再次翻车?苹果以后宣布新功能... 据彭博社的马克·古尔曼 (Mark Gurman) 和德雷克·贝内特 (Drake Bennett)...
最新研究:洗衣机里的细菌进化出... 【CNMO科技消息】许多人认为高温洗涤可以确保衣物彻底清洁,但新的研究表明,实际情况可能并非如此。即...
黄奇帆:以产业互联网为核心的金... 5月18日金融一线消息,以“共享未来:构建开放包容的经济与金融体系”为主题的2025清华五道口全球金...
小米自研芯片来了,这款机型首发... 温馨提示: 最近来了很多新同学, 蓝字」, 右上角「···」, 将奇果酱「」, 以免错过重要消息哦~...
雷军官宣新品发布时间,将推出手... 5月19日,雷军通过个人社交帐号官宣小米新品发布会时间: 小米战略新品发布会,定在5月22日晚7点。...
昱能科技全资子公司成立,聚焦A... 近期,一家专注于人工智能领域的新企业——上海昱能数智能源科技有限公司,正式宣布成立。这家公司的注册资...
巢湖元控飞轮储能基地:领航新能... 近期,元电公司斥资打造的巢湖元控飞轮储能智能制造基地项目,在业界引起了广泛关注。这一基地的建设,不仅...
宁波芯丰取得加工设备专利,保证... 金融界2025年5月19日消息,国家知识产权局信息显示,宁波芯丰精密科技有限公司取得一项名为“加工设...
青州:数智’赋能,青州教育驶入... “这节美术课,我以中国传统文化版画拓印为例,创造了一个非常有趣的人工智能形象,大家快来看一下……”5...
积极挖掘应用场景 深市公司加速... 中证报中证网讯(记者 黄灵灵)日前,深交所以“机巧灵动・赋能新制造”为主题组织举行上市公司集体业绩说...