谷歌AI提出视觉语言模型PixelLLM:能够进行细粒度定位和视觉语言对齐
创始人
2024-01-08 07:21:31
0

原标题:谷歌AI提出视觉语言模型PixelLLM:能够进行细粒度定位和视觉语言对齐

**划重点:**
1. 🧠 谷歌研究团队与加州大学圣迭戈分校合作,提出了一种名为PixelLLM的智能模型,可实现细粒度定位和视觉-语言对齐。
2. 🌐 PixelLLM通过在语言模型的每个输出单词与像素位置之间建立密集对齐,成功解决了大语言模型在定位任务中的挑战。
3. 📈 在密集目标描述、位置条件描述和引用定位等视觉任务中,PixelLLM展现出卓越的性能,证明其在视觉-语言对齐和定位方面取得了最先进的结果。

站长之家(ChinaZ.com)12月19日 消息:谷歌AI研究团队与加州大学圣迭戈分校的研究人员合作,提出了一种名为PixelLLM的智能模型,旨在解决大型语言模型在细粒度定位和视觉-语言对齐方面的挑战。这一模型的提出受到了人类自然行为的启发,尤其是婴儿描述其视觉环境的方式,包括手势、指向和命名。

PixelLLM的独特之处在于,它通过在语言模型的每个输出单词与像素位置之间建立密集对齐,成功地实现了对定位任务的精准处理。为了实现这一目标,研究团队在单词特征之上添加了一个微型多层感知器(MLP),使其能够回归到每个单词的像素位置。低秩微调(LoRA)的使用使得语言模型的权重可以被更新或冻结,同时模型还能够接收文本或位置提示,以提供根据提示定制的输出。

PixelLLM的整体架构包括图像编码器、提示编码器和提示特征提取器。大型语言模型被馈送以提示为条件的图片特征和可选的文本提示,输出形式为每个单词的定位和字幕。该架构具有输入或输出语言或位置的多样性组合,对于各种视觉-语言活动具有灵活性和适应性。

研究团队对PixelLLM进行了评估,应用于密集目标描述、位置条件描述和引用定位等视觉任务。令人瞩目的性能指标包括在RefCOCO引用定位上的89.8P@0.5,Visual Genome条件描述上的19.9CIDEr以及密集目标描述上的17.0mAP。通过在RefCOCO上进行的消融研究显示,与其他定位公式相比,PixelLLM在密集像素定位公式上取得了3.7点的增益。

PixelLLM的主要贡献总结如下:

1. 引入了一种新的视觉-语言模型PixelLLM,能够生成单词定位并生成图片字幕。

2. 该模型支持文本或可选的位置提示,除了图片输入。

3. 使用本地化叙述数据集进行每个单词的本地化训练。

4. 该模型能够适应各种视觉-语言任务,包括分割、位置条件字幕、引用定位和密集描述。

5. 在位置条件字幕、密集描述和引用定位与分割等方面,该模型展现出卓越的性能。

这一研究成果标志着在大型语言模型领域取得的一项重要进展,为实现更精确的视觉-语言对齐和定位打开了新的可能性。

项目体验网址:https://top.aibase.com/tool/pixelllm

论文网址:https://arxiv.org/abs/2312.09237

相关内容

热门资讯

宝莱特获得实用新型专利授权:“... 证券之星消息,根据天眼查APP数据显示宝莱特(300246)新获得一项实用新型专利授权,专利名为“遥...
工装夹治具是保障生产精度与稳定... 在制造业的生产环节中,产品质量是企业立足市场的根本。工装夹治具作为保障生产精度与稳定性的重要辅助工具...
动态彩虹壁纸+系统优化!苹果i... 【CNMO科技消息】据CNMO了解,苹果在近日发布新款彩虹主题表带的新闻稿中确认,iOS 18.5系...
科技美学共振!界环×SDOKA... 在智能穿戴设备加速迭代的时代浪潮中,每一次技术革新都如同一把钥匙,开启行业发展的全新维度。作为科技与...
苹果AI国行版或随iOS 18... 图片来源:视觉中国 界面新闻记者 | 宋佳楠 “难产”的苹果AI国行版又有了新消息。 5月6日...
“舞狮”机器狗吸睛五一 AI将... 当前,“人工智能+”行动正在向千行百业各方面延伸。5月4日,由佛山市工业和信息化局指导主办、佛山电信...
兰钧新能源科技取得储能系统专利... 金融界2025年5月6日消息,国家知识产权局信息显示,兰钧新能源科技有限公司取得一项名为“一种储能系...
机器人产业潮起入局者明显增多 ... 据报道,新战略人形机器人产业研究所统计,截至2024年12月,全球人形机器人本体企业数量已经超220...
“热潮下要有定力”,她的目标是... 澎湃新闻记者 鞠文韬 “当前常见的商场迎宾机器人、酒店送餐机器人或者工业线上的工业机器人,都是按照事...
苹果因违反应用商店禁令被开发者... 【CNMO科技消息】5月6日,据外媒消息,苹果公司因被指控“故意违反”法院下达的反引导禁令,遭到了开...
AI大模型“垂直发力” 深度挖... 企业利用大模型一键生成排产计划、钢铁厂的转炉被装上“火眼金睛”、大模型成为服装设计师的“私人助手”…...
微软宣布2025年5月关闭Sk... 2025-05-05 15:20:26 作者:狼叫兽 微软此前宣布,将于2025年5月5日正式停止...
奋战二季度 拼抢上半场丨科创新... 在浙江实施的《全链条支持创新药械高质量发展的若干举措》中,明确将在技术与资金方面加大支持力度,加快布...
新研究实现对超快激光脉冲精确测... 新华社耶路撒冷5月5日电(记者王卓伦 陈君清)以色列研究人员日前在国际学术期刊《光:科学与应用》发表...
深圳小雨点申请图像处理相关专利... 金融界2025年5月5日消息,国家知识产权局信息显示,深圳小雨点数字技术有限公司申请一项名为“图像处...
AMD 锐龙9 9950X3D... 【ZOL中关村在线原创评测】近几年PC平台游戏帧数越来越高,尤其是网络游戏,百帧游戏已经成为玩家打造...
颜宁打假网传简历是太较真吗? □熊丙奇 据媒体报道,5月4日,著名科学家颜宁在社交媒体发布声明,打假网传简历。 颜宁在社交媒体表示...
安序源科技递表 致力于开发新一... 安序源科技,一家融合集成电路、生物科技和人工智能技术的生命科学公司,已向港交所递交上市申请。该公司致...
小米“智驾”更名“辅助驾驶”后... 近日,小米汽车官方宣传物料上,对其智能驾驶功能更换了宣传术语,将原有的“智驾”更改为“辅助驾驶”引发...
整治AI技术滥用!中央网信办出... 为规范AI服务和应用,促进行业健康有序发展,保障公民合法权益,近日,中央网信办印发通知,在全国范围内...