拖拽P图技术又升级了:StableDrag更稳、更准,南大、腾讯联合打造
创始人
2024-03-18 12:49:02
0

原标题:拖拽P图技术又升级了:StableDrag更稳、更准,南大、腾讯联合打造

机器之心报道

编辑:杜伟、陈萍

去年 5 月,动动鼠标就能让图片变「活」得研究 DragGAN 吸引了 AI 圈的关注。通过拖拽,我们可以改变并合成自己想要的图像,比如下图中让一头狮子转头并张嘴。

实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文,于上个月放出并已被 SIGGRAPH 2023 会议接收。相关的项目在 GitHub 上已经积累了 34.5k 的 Star 量。

项目地址:https://github.com/XingangPan/DragGAN

之后,新加坡国立大学和字节跳动推出了类似的研究 ——DragDiffusion。他们利用大规模预训练扩散模型,极大提升了基于点的交互式编辑在现实世界场景中的适用性。效果如下动图所示:

尽管取得了很大的成功,但类似的拖拽方案存在两个主要缺陷,即点跟踪不准确和动作监督不完整,从而可能导致无法达到满意的拖拽效果。

为了克服这些缺陷,南京大学、腾讯的几位研究者提出了一种判别式点跟踪方法并针对动作监督采用了基于置信的潜在增强策略,构建了一个更加稳定和精确的拖拽编辑框架 ——StableDrag。

其中判别式点跟踪方法能够精确地定位更新的操纵点,提高长程操纵稳定性;基于置信的潜在增强策略能够在所有操纵步骤中,保证优化的潜在变量尽可能地高质量。

  • 论文标题:StableDrag: Stable Dragging for Point-based Image Editing
  • 论文地址:https://arxiv.org/pdf/2403.04437.pdf
  • 项目地址:https://stabledrag.github.io/

得益于这些独特的设计,研究者实例化了两种类型的图像编辑模型:StableDrag-GAN 和 StableDrag-Diff。这两个模型在 DragBench 上进行了广泛的定性和定量评估,结果都显示出更加稳定的拖拽效果。

从下面视频中,我们可以看到 StableDrag-GAN 的拖拽全过程。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650911307&idx=4&sn=d8e8d6ca8b7621c422f53c3570852d3c&chksm=84e47635b393ff23b113fe72e5b0dc4d0fc84ae39e3a43877ef31e9a67a7faba4e8558f83bb9&token=1135948699&lang=zh_CN#rd

如下为 StableDrag-GAN 的更多拖拽示例。

StableDrag-Diff 的拖拽示例如下所示。

方法介绍

如图 1 所示,由于不精确的点跟踪和不完整的动作监督,DragGAN 和 DragDiffusion 对图像的编辑质量不高。因此,在这项工作中,本文将注意力集中在当前的拖拽技术上,以实现更稳定和更精确的图像操作。

拖拽 pipeline 如图 2 所示,包括判别点跟踪模块( Discriminative PT )和置信动作监督模块( Confident MS )。

判别点跟踪

置信动作监督

实验结果

研究者基于 PyTorch 实现了 StableDrag-GAN 和 StableDrag-Diff,实验中使用了一块英伟达 V100 GPU。

下图 5 展示了 DragGAN 与 StableDrag-GAN、DragDiffusion 与 StableDrag-Diff、以及 FreeDrag-Diff 与 StableDrag-Diff 三组模型之间的定性比较。

可以看到,本文的 StableDrag 方法可以更精准地将操纵点移动到目标点,例如山峰、狮子下巴、小鹿额头和灯泡。同时,StableDrag 可以生成更高质量和更高保真度的编辑结果,比如保持手提包、眼镜、马和兵马俑的外观。

研究者在 DragBench 基准上对 StableDrag 方法进行了定量评估,该基准包含 205 个具有预定义拖拽点和掩码(mask)的样本。

如下表 1 所示,在 3 种不同的优化步骤设置下,StableDrag-Diff 始终能够优化 DragDiffusion。

这进一步表明:通过置信动作监督和判别式点跟踪,StableDrag 可以在编辑准确性和内容一致性方面实现有潜力的结果。

除了定性和定量评估之外,为了验证本文方法的有效性并展开深入分析,研究者通过「基于 GAN 和扩散模型的定性可视化」以及「基于扩散模型的 DragBench 定量评估」,进行了详细的消融实验。

首先是置信动作监督。研究者首先进行了基于 StableDrag-GAN 的马编辑实验,如下图 6 所示,随着置信度得分逐渐降低,没有置信度动作监督模块的 StableDrag 编辑的图像质量较低。

其次是判别点跟踪。图 7 和表 2 评估了 StableDrag 和没有判别跟踪模型的 StableDrag。我们可以看到,没有判别跟踪模型的 StableDrag 可能会受到背景干扰点的误导,导致结果不准确。

最后是跟踪模块的实用性。该研究提出的点跟踪器在公式和实现上都很简洁。如表 3 所示训练跟踪器(大约仅 1 秒)花费的时间远少于拖拽过程。

更多技术细节和实验结果请参阅原论文。

相关内容

热门资讯

小程序开发和APP开发,到底该... “老板,新项目咱们是搞个小程序,还是正儿八经做个APP啊?” 这问题,估计是很多软件定制开发公司天天...
增发国债项目促气象防灾减灾能力... 日前,面对今年首个登陆我国台风“蝴蝶”,海南气象部门依托增发国债气象项目新建的X波段相控阵雷达和升级...
常熟海关护航国产3D打印材料走... 本报讯(记者 李之鹏)近年来,全球3D打印产业加速向精密化、规模化跃迁。我国新型材料企业以技术创新与...
不满法院判决,多益网络裁员千人... 要闻提示 1.售价499美元的特朗普T1手机被曝是中国制造,官网撤下“美国制造”标签 2.字节See...
重庆移动5G智慧网络护航重庆东... 近日,西部地区最大高铁枢纽站重庆东站正式投用。重庆移动充分发挥通信保障主力军作用,为其打造了覆盖全面...
以“四个盘活”为核心,浙江移动... 作为数字经济的核心支柱,电信行业在全球绿色化转型中肩负着重要责任。在国家“双碳”战略引领下,中国移动...
马斯克生日惊喜!全球首例Mod... 新智元报道 编辑:犀牛 【新智元导读】就在昨天,一辆Model Y自己精准地停在了车主家门口——全...
原创 双... 《电鳗财经》电鳗号/文 在科技创新的浪潮中,产学研的融合始终是推动技术落地的重要引擎。然而,从实验室...
“再次伟大”的只有总统家的生意 转自:北京日报客户端 本月中旬,特朗普集团高调宣布进军手机市场,推出一款售价499美元的智能手机,并...
脊髓损伤治疗突破,科学家以超薄... IT之家 6 月 29 日消息,脊髓损伤会破坏大脑和身体之间的神经信号传递,可能导致运动障碍、感觉异...
特朗普:TikTok有买家了,... 据路透社报道,美国总统唐纳德·特朗普在周日播出的福克斯新闻采访中表示,他已经为 TikTok 短视频...
中国人民大学携手西湖大学成立未... 新京报讯(记者杨菲菲)研究人类的起源演化、探索基因编辑等新技术对生命本质的重构、尝试研究太空探索与星...
大同首批二十三家无人智能驿站投... 本报讯 “有了这个无人智能驿站,我们取快递更方便啦!”日前,大同市邮政管理局指导寄递企业开设的首批2...
“海南智造”亮相中博会 记者 邵长春 在第二十届中国国际中小企业博览会(以下简称中博会)海南馆入口处,一架身披海洋蓝外衣的大...
减速器+PEEK材料+人形机器... 最近A股有三个板块正在悄悄升温——减速器、PEEK材料和人形机器人。 减速器决定了机器人动作的精准度...
科普课堂 | 预防老年听力丧失... 目 录 什么是老年性听力丧失 老年性听力丧失的原因 老年性听力丧失的表现有哪些 老年性听力丧失的预防...
德国一机构要求苹果谷歌下架De... 【环球时报驻德国特约记者 青木 环球时报记者 马晶晶】德国数据保护专员梅克·坎普27日要求苹果和谷歌...
东莞和睦医药取得用于药物分装操... 金融界2025年6月28日消息,国家知识产权局信息显示,东莞和睦医药科技有限公司取得一项名为“一种用...
河南秦尉数字申请离线部署方法及... 金融界2025年6月28日消息,国家知识产权局信息显示,河南秦尉数字技术有限公司申请一项名为“离线部...
“盘古”机器人 原创南科大 南科大独立研发的人形机器人“盘古”来了!(学校供图) 深圳商报首席记者 吴 吉 通讯员 韩文嘉 “您...