NVIDIA新模型DAM-3B:图像视频局部描述新突破
创始人
2025-04-26 13:20:46
0

IT之家 4 月 24 日消息,科技媒体 marktechpost 昨日(4 月 23 日)发布博文,报道称英伟达为应对图像和视频中特定区域的详细描述难题,最新推出了 Describe Anything 3B(DAM-3B)AI 模型

视觉-语言模型(VLMs)在生成整体图像描述时表现出色,但对特定区域的细致描述往往力不从心,尤其在视频中需考虑时间动态,挑战更大。

英伟达推出的 Describe Anything 3B(DAM-3B)直面这一难题,支持用户通过点、边界框、涂鸦或掩码指定目标区域,生成精准且贴合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分别适用于静态图像和动态视频,模型已在 Hugging Face 平台公开。

独特架构与高效设计

DAM-3B 的核心创新在于“焦点提示”和“局部视觉骨干网络”。

焦点提示技术融合了全图信息与目标区域的高分辨率裁剪,确保细节不失真,同时保留整体背景。

局部视觉骨干网络则通过嵌入图像和掩码输入,运用门控交叉注意力机制,将全局与局部特征巧妙融合,再传输至大语言模型生成描述。

DAM-3B-Video 进一步扩展至视频领域,通过逐帧编码区域掩码并整合时间信息,即便面对遮挡或运动也能生成准确描述。

数据与评估双管齐下

为解决训练数据匮乏问题,NVIDIA 开发了 DLC-SDP 半监督数据生成策略,利用分割数据集和未标注的网络图像,构建了包含 150 万局部描述样本的训练语料库。

通过自训练方法优化描述质量,确保输出文本的高精准度,团队同时推出 DLC-Bench 评估基准,以属性级正确性而非僵硬的参考文本对比衡量描述质量。

DAM-3B 在包括 LVIS、Flickr30k Entities 等七项基准测试中领先,平均准确率达 67.3%,超越 GPT-4o 和 VideoRefer 等模型。

DAM-3B 不仅填补了局部描述领域的技术空白,其上下文感知架构和高质量数据策略还为无障碍工具、机器人技术及视频内容分析等领域开辟了新可能。

IT之家附上参考地址

相关内容

热门资讯

大模型备案是什么意思?怎么办理... 大模型备案是近年来随着人工智能技术的发展而逐渐引起关注的一个话题。尤其是在大模型的应用越来越广泛的背...
有精致外观还有极致配置,一加A... 随着新一批性价比机型上线,相信不少朋友也开始考虑换机了。当然,在这种关头,我们也依旧推荐一些发布了有...
数字时代,让古典文学成为“活的... 蔡丹君 互联网以及AI技术的发展,带来了知识传播形式的变迁,也为学科带来了挑战。面对技术革命,古典文...
原创 为... 第一次听到“美国不让中国登陆月球”这一说法时,我的心中不禁泛起了惊讶的波澜。月球,这颗伴随地球旋转的...
英维克申请一种水泵专利,可有效... 金融界2025年5月3日消息,国家知识产权局信息显示,深圳市英维克科技股份有限公司申请一项名为“一种...
小米申请防误触方法专利,能提升... 金融界2025年5月5日消息,国家知识产权局信息显示,北京小米移动软件有限公司申请一项名为“防误触方...
原创 探... #科考登山队员登顶珠峰#近年来,中国科学考察队通过一次次挑战珠穆朗玛峰(珠峰)的历史,不断拓展人类对...
上海桢铭取得集尘机粉尘收集装置... 金融界 2025 年 5 月 3 日消息,国家知识产权局信息显示,上海桢铭自动化工程有限公司取得一项...
新乡市胜源电气取得防雾配电箱生... 金融界2025年5月3日消息,国家知识产权局信息显示,新乡市胜源电气有限公司取得一项名为“一种具有防...
当Z时代遇上了AI——AI世界... 大象新闻记者 冉晓晖 崔传深 一个刚刚诞生的AI系统就像一张白纸,对世界一无所知。这时,人工智能训练...
工信部开始严抓智驾,为啥从业者... 高阶智驾团灭,以后就只剩辅助驾驶了? 在前几天的上海车展上,以前狂吹高阶智驾、智能驾驶的车企们,这次...
原创 从... 是孤独的巨人,还是碰撞的产物?超级木星有着混沌的过去 两颗巨行星碰撞时,一个更大的世界将会就此诞生。...
“五一”出游安全感拉满!北川 ... “五一”期间,北川羌族自治县公安创新运用“无人机+智慧警务”模式,通过高空巡查、实时喊话、智能调度的...
80余所高校设立储能本科专业 新型储能就像“超级充电宝”,可以在电力运行中调峰、调频、调压,对促进新能源开发消纳、保障电力系统安全...
工信部:加强通用大模型和行业大... 新华社北京5月4日电(记者张辛欣、周圆)记者近日从工业和信息化部获悉,下一步将加强通用大模型和行业大...
传承“五四”精神,谱写藏蓝青春... 青春因磨砺而出彩,人生因奋斗而升华。在莱西公安队伍中,有这样一群新时代青年民警,他们的梦想青春,以梦...
推动人工智能产业迈向更高水平 人工智能是引领新一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应,是培育和发展新...
【奋斗者 正青春】全国新时代青... 凌晨的中北大学实验室里,一盏孤灯常明。仪器与电子学院测控系主任刘文耀伏案整理实验数据,手边是厚厚一沓...
全市三百青年突击队挺立科技创新... 本报记者 王琪鹏 “青年是祖国的前途、民族的希望、创新的未来。”在科技强国建设的征程中,北京共青团以...
Mac上快速搭建宽带连接指南 为Mac配置宽带连接的完整指南 在数字化时代,稳定高效的网络连接对Mac用户至关重要。无论是通过有线...