图像生成:目标放置


阅读论文

一.TopNet: Transformer-based Object Placement Network for Image Compositing(CVPR2023)

论文链接

参考链接

摘要

作者调研自动放置目标到背景进行图像合成的问题。提供背景图、分割的目标,==训练模型预测合理放置信息(位置及尺寸)==。当前工作主要是生成候选框或者使用滑窗搜索,但是不能在背景图中建模局部信息。本文通过transformer学习目标特征与所有局部背景特征之间相关性。稀疏对比损失用于进一步训练模型。通过网络前向生成3D heatmap表明所有合理位置/尺度组合。训练时可以使用具体标注也可使用现有inpaint模型,已超过SOTA方法。用户研究表明训练的模型可泛化到真实图片。


引言

截图

如图1,

  • 现有方法【26】直接预测多个变换或边界框,表明提供目标的位置和尺度,但仅推荐top,不提供其他可能位置及尺度。
  • 现有方法【29】使用检索模型评估给定位置的合理性,并以滑动窗口的方式评估位置和尺度的网格,这导致推理速度慢。
  • 本文作者提出的TopNet,将目标放置转化为稠密点预测问题:通过一次网络前向生成包含位置、尺度的稠密网格评估。之前方法仅在全局层级结合前景及背景,而TopNet学习全局前景特征与局部背景特征之间相关性,可高效评估所有可能放置位置。
    作者训练TopNet时仅提供一个边界框,因此使用稀疏对比损失,真值位置/尺寸有一个相对高的得分,同时最小化其他组合及比真值得分高的组合,通过在预测的3D热度图上寻找局部最大值生成候选边界框位置

贡献

  • 1、一种新颖的基于transformer的结构建模目标图与来自背景图的局部信息之间相关关系;
  • 2、稀疏对比损失训练稠密预测网络;
  • 3、在inpaint数据集和标定数据集充分实验验证达到SOTA

算法

架构

提供一张背景$I_b$及前景$I_o$,模型预测的3D热度图$H\in{\mathbb{R}^{h_b\times w_b\times c}} $,$c = 16$,表示尺度值s,0.15-0.9,间隔0.05,每个空间位置与放置边界框的中心有关。
推理时,首先对$H$归一化,寻找top-1或top-k候选框。

截图

如图2,使用两个编码器学习背景和目标特征,为确定特定位置的目标尺寸是否合适,

  • 背景图中局部信息可提供细节信息,因此保留来自背景encoder中最后一个卷积层或transformer层的局部特征/token;
  • 对于前景相对简单,保留全局特征。
  • 使用多层transformer学习目标全局特征与背景局部特征之间相关性,class token替换为目标全局特征,最后一层所有patch token送入上采样decoder;对于transformer降采样后的特征进行concat及reshape,而后经过4个卷积层进行上采样。

损失函数

对密集定位和尺度评价的主要挑战是稀疏的监督信号。

  • CAIS[27]或OPA[12]中的小尺度标注仅为每个样本提供一个正位置边界框,没有对其他位置/尺度的监督。
  • 对于没有显式注释的大规模数据集,生成监督的一种方法是屏蔽背景图像中的原始对象,并使用现成的手绘模型生成纯背景图像。然后可以考虑原目标的边界框作为ground-truth的放置,但是监督仍然是稀疏的——只有一个位置和尺度。

简单的思路。

监督模型的一个简单想法是为每个位置尺度组合(即3D热图中的每个数据点)分配一个真实值。简单二元赋值将唯一的ground-truth组合(GT数据点)考虑为1,所有其他位置尺度组合考虑为0。

更平滑的分配是高斯分配,它根据每个数据点与三维空间中地面真值点之间的距离给出分数。它考虑分数的局部性,即接近地面真相的位置/尺度仍然应该是很好的候选人。这些分配将所有远离地面真相的位置/尺度视为低分的负点。然而,这种假设在大多数情况下并不成立。给定一个特定的背景场景,某些物体可以在许多不同尺度的位置兼容。

我们假设背景图像中存在多个良好的候选边界框,并提出在ground-truth位置/尺度上最大化分数,同时在其他位置/尺度上允许具有高分的局部峰值,假设三维热图$H\in{\mathbb{R}^{h_b\times w_b\times c}} $中的groundtruth坐标为$(x_{gt},y_{gt},z_{gt})$。第一个损失项表示为:

截图

真值处得分最大,其中对真值附近的点$M$为0,其余位置为0.1

截图

鼓励最低得分为0,因为对于某些背景和物体图像,总是存在不良的位置或比例,防止模型预测所有位置/尺度的高分。

截图

评估

  • TOP-K IOU。将top5 IOU作为评估指标,即在基本事实和前5个预测边界框之间的最佳IOU。
  • 归一化分数。对于具有热图分数的方法,ground-truth可能不一定要有最高分,但它应该是最好的。因此,我们应用标准化分数作为评估指标之一。首先将热图得分归一化,最小值和最大值分别为3.1节中的H -,称为归一化得分(normalized score, NS)。地真位置/比例尺的NS可能不为1,但与其他位置和比例尺相比,NS应该相对较高。因此,**我们计算平均NS和高于一定阈值的NS部分(例如0.9)**。当仅评估位置时,NS比IOU更合理,因为小的空间移动可能导致IOU为0。

跟SOTA进行对比

Regression表示直接预测真值框;
†Retrieval表示通过检索寻找合理位置;
Classifier表示通过分类器预测合成图是否合理,为检索方案的进一步扩充;
PlaceNet表示通过对抗训练预测框是否合理。
表1展示top-5 IOU评估结果,该方法远超过现有方法,同时速度也比较快;

截图

二.DiffPop: Plausibility-Guided Object Placement Diffusion for Image Composition

论文链接

摘要

作者解决了逼真图像合成的挑战性任务中可信对象放置的问题。提出了DiffPop框架,这是第一个利用似然引导的去噪扩散概率模型来学习多个目标和相应场景图像之间的尺度和空间关系的框架。首先,训练了一个非引导扩散模型,以自监督的方式直接学习物体的放置参数。然后,开发了一个人在环Pipeline,利用人对扩散生成的合成图像进行标记,为训练结构合理性分类器提供弱监督。该分类器进一步用于引导扩散采样过程产生合理的目标放置。实验结果验证了该方法在新的cityscape - op数据集和公共OPA数据集上生成可信和多样化的合成图像的优越性,并展示了其在数据增强和多目标放置任务等应用中的潜力。

引言

目标放置

图像合成包括通过将特定的前景对象与背景图像相结合来创建看起来逼真的合成图像。在计算机视觉领域,Niu等人[NCL 21]将图像合成分为四个分支:物体放置、图像混合、图像协调和阴影生成。这些分支解决了图像合成过程中遇到的各种挑战。在本文中,我们重点研究了目标放置任务,该任务旨在为前景目标确定合适的比例和位置

传统的目标放置方法采用明确的规则为前景目标找到合适的位置和尺度。

另一方面,基于学习的物体放置方法通常预测或生成仿射变换矩阵,以确定前景物体在背景图像上的位置和比例。

  • Lin等人[LYW 18]介绍了一种新的GAN架构,该架构利用空间Transformer网络(STN)作为生成器,根据生成的转换参数对前景对象进行转换,从而生成逼真的合成图像。这种基于深度学习的方法极大地推动了物体放置领域的发展。

  • Lee等人[LLG18]提出了一种端到端vae - gan,通过自监督和无监督训练生成对象的变换矩阵和形状。该方法降低了GAN训练过程中模式崩溃的风险,在后续工作中得到了广泛的应用。

  • Tripathi等人[TCA 19]在GAN训练过程中加入了一个额外的判别器网络,以促进下游任务的目标数据增强。

  • Zhang等[ZWM∗20]利用通过预训练的实例分割和图像绘制方法获得的自监督数据对来确保目标放置的多样性。

  • Liu等人[LLZ 21]创建了一个名为OPA的专用对象放置数据集,并引入了SimOPA分类器来评估对象放置。

  • Zhou等人[ZLNZ22]将目标放置问题转化为图节点补全任务,利用二值分类损失训练判别器网络,充分利用了带标签的负样本。

  • SAC-GAN [ZMZ 22]结合了目标和背景图像的边缘和语义信息,以提高合成结果的结构一致性。

  • TopNet [ZLC23]提出使用transformer来学习目标特征与局部背景特征之间的关系,从而改进了目标尺度和位置的生成。

    扩散模型

  • Ho等[HJA20]引入了去噪扩散概率模型(DDPM),这是一种生成模型,通过不断向真实样本中添加噪声并使用网络去噪来优化网络。这种方法使网络能够生成真实的样本。

  • Song等[SME20]对扩散模型进行了改进,提高了采样速度。

  • Nichol等[ND21]进一步增强了扩散模型生成高质量样品的能力。

  • 对于条件图像合成,Dharival等[DN21]通过在扩散模型的采样过程中加入分类器引导来提高采样质量。他们利用分类器的梯度来平衡生成样本的多样性和合理性。

  • Liu等[LPA * 23]引入了一个统一的语义扩散引导框架,允许通过语言、图像或两者进行引导。

  • Ho等人[HS22]联合训练条件扩散模型和无条件扩散模型,将得到的条件和无条件分数估计值结合起来,实现样本质量和多样性之间的平衡。这种方法将扩散模型从分类器引导采样的限制中解放出来。

  • Nichol等人[NDR * 21]提出了GLIDE模型,该模型能够生成以文本为条件的高质量图像。他们证明无条件指导在基于语言的条件反射中优于CLIP指导。

  • Ramesh等人[RDN∗22]提出了unCLIP,它利用CLIP的特征空间和扩散模型以零射击的方式从文本描述生成图像。

  • 撒哈拉等人[SCS * 22]引入了Imagen,这是一个框架,它结合了大型Transformer语言模型和扩散模型,使网络具有从文本提示生成图像的能力。

  • Robin等人[RBL * 22]将扩散模型直接应用于潜在空间,大大节省了文本到图像生成的计算资源。

  • [HZO * 23]扩散模型在图像合成领域的应用。他们迭代地将背景图像中的上下文信息注入到插入的前景对象中,从而可以控制前景对象的变化程度。

与上述方法相比,我们专注于可信性引导的对象放置,即我们首先基于非引导扩散模型产生的弱注释图像训练一个可信性分类器,然后使用分类器指导扩散采样过程以产生可信的结果

贡献

  • 我们提出了DiffPop,这是第一个以合理性为导向的扩散框架,旨在为图像构图生成合理的对象放置。具体来说,我们学习了一个结构合理性分类器,为基于扩散的物体放置生成过程提供指导。
  • 我们采用human-in-the-loop策略获得图像级弱监督来训练可信性分类器。我们创建了一个新的数据集cityscenes - op,该数据集可以用于训练似然引导扩散模型,用于在比OPA数据集更复杂和结构背景的场景中放置物体。
  • 实验结果表明,我们的方法在cityscape - op和OPA数据集的可行性和多样性方面实现了最先进的对象放置性能。我们的方法在创建用于数据增强和多对象放置的合成图像方面也显示出有希望的结果。

与上述方法相比,我们的方法基于扩散模型,提供了多样性和稳定的训练。我们的方法有效地利用正样本和负样本来指导扩散模型生成更合理的尺度和位置,从而形成逼真的图像。此外,我们的导引扩散框架还可以扩展到同时放置多个物体,这是以前的方法无法实现的。

算法

给定一个场景图像作为背景,一个物体斑块作为前景,我们寻求学习物体放置的比例和空间分布,从而获得逼真的图像构图。我们的DiffPop框架的训练管道包含两个阶段,如图2所示:

  • 在阶段1中,训练一个无引导的物体放置去噪扩散模型来学习物体尺度和位置的分布;
  • 在阶段2中,使用先前训练模型生成的人工标记的合成图像训练结构可信性分类器。

在推理时,如图3所示,给定背景图像和目标patch,我们使用分类器引导扩散生成二维变换(尺度和位置)以合理放置目标,并采用复制-粘贴方案进行图像合成

截图

截图


生成的效果

截图

无引导的对象放置去噪扩散

首先训练一个无引导的去噪扩散模型,用于学习给定数据集中对象尺度和位置的分布。

扩散过程。前向扩散过程是一个预定义的马尔可夫链,它对对象放置$x\in{\mathbb{R}^D} $ 进行操作,其中 x = [s, v,h],s 是对象-图像对的相对尺度,(v,h) 是垂直和对象相对于图像的水平偏移,如图 2(上图)所示。为了启动扩散过程,我们从从底层分布 q(x0) 采样的干净对象放置 x0 开始。然后,我们逐渐将高斯噪声添加到 x0,从而产生一系列中间对象放置变量 x1:T,遵循线性增加噪声方差的预定时间表,表示为 β1:T。扩散过程的联合分布 q(xt |xt−1) 表述为:

截图

去噪过程。去噪过程也称为生成过程,被参数化为具有可学习反向高斯转换的马尔可夫链。给定从标准多元高斯分布采样的噪声对象放置,表示为 xT ∼N(0, I),作为初始状态。目标是在每个时间步纠正每个状态 xt,使用学习到的高斯转移 pθ (xt−1|xt ) 生成更清晰的版本 xt−1。这种转变由表示为 θ 的可学习网络决定。通过迭代地应用这个相反的过程直到达到最大步数T,获得代表期望的干净对象放置的最终状态x0。生成过程的联合分布表示为 pθ (x0:T),表达如下:

截图

其中参数 µθ (xt ,t) 和 Σθ (xt ,t) 分别表示 xt−1 高斯分布的预测均值和协方差。这些参数是通过将xt作为去噪网络θ的输入获得的。为简单起见,我们为 Σθ (xt ,t) 设置预定义常数,如 DDPM [HJA20] 中所示。随后,根据贝叶斯定理,可以通过减去预测噪声来重新参数化 µθ (xt ,t):

截图

网络训练目标。我们从图像中提取真实的对象位置,以自我监督的方式训练我们的位置去噪网络。网络 θ 是一个简单的 4 层 MLP,输入和输出大小为 N×3。我们根据 DDPM [HJA20] 的 ϵ 预测来训练网络,损失为 ℓ2:

截图

合理性引导的对象放置扩散

由于无引导扩散模型仅学习对象放置分布,因此它没有考虑场景级结构一致性,并且可能无法根据给定对象和场景图像生成合理的放置。受到[DN21]中分类器引导的条件生成的启发,我们训练了一个基于带注释的结构合理性的分类器,并使用其梯度来引导扩散采样过程实现场景级结构一致性。为了训练这样的合理性分类器:

  • 我们要么从现有数据集中获取现有的正/负标签(例如 OPA),
  • 要么采用人机交互策略来解决合理性测量的注释。

人机交互的合理性标签。像 Cityscapes 这样的现有数据集最初并不是为对象放置任务而设计的,导致缺乏用于训练对象组合网络的真实注释。尽管自监督训练方案 [ZWM20,ZMZ22] 可用于从正例中学习对象放置分布,但对于训练二元分类器进行合理性测量所必需的负例通常会丢失。为了解决这个问题,我们采用人机交互策略,根据图像的合理性和真实性标准,手动为无引导对象放置扩散模型生成的合成图像分配正标签和负标签,如下所示如图2(下)所示。简而言之,正标签意味着插入的对象和背景场景之间结构一致,并且整体图像是合理的,反之亦然。这些人工注释可以为学习合理性分类器提供必要的弱监督,该分类器可以测量无引导扩散模型的结果,并进一步用于指导扩散采样过程。==需要人工==

结构合理性分类器。为了引导扩散模型生成合理的对象放置,我们训练了结构合理性分类器 Cs 并使用其梯度来指导扩散采样过程。 Cs 简单地定义为 ResNet-18 主干二元分类器,旨在判断场景级别合成图像的结构合理性。分类器将语义场景布局对象掩模相结合作为输入,并以监督方式使用手动注释的正/负标签进行训练。对于输入场景的语义布局,我们直接利用数据集提供的语义图并将其处理为二进制掩码,而每个掩码对应一个类别。为了从输入对象掩码和处理后的二进制场景布局中获得复合布局,我们使用空间变换网络(STN)[JSZ*15]提出的空间扭曲以及由无引导扩散模型生成的仿射变换矩阵 At 来变换 2D 对象块, 在哪里

截图

分类器使用非引导扩散的结果进行独立训练,并将在引导扩散过程中被冻结。


分类器引导的扩散。一旦分类器 Cs 训练完毕,我们就使用它的梯度来指导对象放置扩散模型的采样过程(图 4)。具体来说,采样公式定义如下:

截图


其中,λ是引导尺度因子,决定分类器Cs的梯度对扩散模型采样的影响程度,φ是Cs的参数。具体来说,我们根据时间 t 的采样结果生成一个变换,并利用它来变换给定的对象块并将其与目标背景布局相结合。然后,将复合布局(详细信息请参见第 4.6 节)输入到 Cs 中以获得合理性得分,即二元分类的概率。我们计算分数的梯度。 t时刻的采样结果,梯度用于指导t时刻t−1的采样结果。经过T次迭代后,可以得到最终的位置x0=[s0,h0,v0]。最后,我们使用(s0,h0,v0)形成的仿射变换矩阵A0(见式8)对物体进行变换,并将变换后的物体粘贴到背景图像上以获得合成图像。

截图

实验

截图

截图

截图

三.Learning to Place Objects into Scenes by Hallucinating Scenes around Objects

摘要

修改图像以将新对象添加到场景中的能力是一个强大的图像编辑控件。然而,现有的基于扩散的图像编辑方法不支持对象插入。核心挑战是在给定场景图像的情况下预测物体在场景中的位置。为了解决这个问题,我们提出了DreamPlace,这是一个两步的方法,它将给定类的对象插入到图像中:1)预测对象在图像中的可能位置,2)在该位置对对象进行绘制。我们只使用合成数据来训练我们的物体放置模型,利用基于扩散的图像绘制来产生围绕给定物体的场景的新图像。DreamPlace使用它的学习放置模型,可以产生比类似的基于扩散的基线在质量上更真实的对象插入编辑。此外,对于存在基准注释的有限对象类别集,我们的学习对象放置模型尽管完全是在生成的数据上训练的,但与在大型手动注释数据集(>80k注释样本)上训练的最先进的监督方法相比,其对象放置的准确性要高出35%。


引言

由于缺乏对对象放置位置的自动控制,控制基于扩散的图像生成的现有方法在执行对象插入编辑的能力方面受到限制。(见图1)。最先进的基于迭代编辑的范例(3)也经常忽略向现有场景添加对象的命令,特别是当对象在图像中很小的时候。其他编辑方法(29;24)在插入对象方面表现得更好,但他们假设了明确的指导,即在何处绘制对象及其方向和形状(例如,遮罩)。

我们引入DreamPlace,这是一种修改图像以包含给定类的新对象的算法(例如,在包含桌子的场景图像中添加笔记本电脑,或者在描绘咖啡桌的图像中添加杯子)。DreamPlace将问题分为两个阶段:1)学习一个模型,该模型预测给定类的对象可能属于图像中的哪个位置(对象应该“放置”在场景中的哪个位置);2)利用基于扩散的图像绘制来生成新的图像像素,在预测位置描绘物体,同时确保与周围场景环境的视觉和谐。

动机思路

在这种设置中,挑战在于:仅给定场景的图像,我们如何预测物体的位置?我们的见解是,尽管现有的文本引导扩散模型不直接支持对象附加编辑,但它们在互联网规模的数据中进行了训练(25),在更大的场景背景下,已经学会了对合理对象放置的强大先验。给定我们希望添加的对象类的图像,我们通过使用基于扩散的图像绘制来产生包含该对象的可信完整场景的幻觉图像,从而利用这一先验。然后,我们使用这些生成的图像作为一个大而多样的训练数据集,通过弱监督学习来学习对象放置预测器。换句话说,我们通过使用现成的扩散模型在物体周围放置场景来学习在场景中放置物体。

截图

我们将DreamPlace与基于扩散的基线和对象放置基线进行比较。使用其学习对象放置指导,DreamPlace在一系列常见的桌面、室内、街景和空中对象类(第4.1节)上生成比先前基于扩散的方法在质量上更逼真的对象插入编辑。此外,对于具有标记评估数据的一小部分对象类别(桌面对象,如杯子,笔记本电脑等),我们预测的对象放置(纯粹从合成训练数据中学习)在数量上优于先前在大型人类注释放置数据集上训练的最先进的模型(13)。DreamPlace实现了跨桌面对象类别的面积交叉点(IoA)指标平均增加25.2%,从可信表面到预测边界框的平均位移(µD)平均提高35.1%(第4.2节)。


相关工作

文本引导图像扩散模型(21;20;22)能够合成高质量的图像和最近的扩展,例如(2;1;29日;30;24;28)旨在控制扩散模型。这些方法能够在给定明确位置或布局的情况下将对象添加到场景中;他们这样做是通过绘画(21;2;28日;29日;11)或以掩模、层或分割的形式进行空间调节(29;1;24;30)。然而,当给定一个没有明确输入在哪里(以及如何)添加对象的场景时,它们并不能解决问题。例如,美术师需要绘制编辑的形状和位置。这很重要,因为当对象编辑的目标是为其他下游任务生成或增加数据时,要求人工指定添加对象的位置是不可伸缩的。**(3)支持基于指令的图像编辑,但文本指定的编辑在插入新对象时表现不佳(图1)**。我们的目标是使用扩散模型启用对象插入编辑,但让系统完全决定对象的放置位置和方式。

类似的目标插入任务在计算机视觉文献中也有研究。前景目标搜索(32;34)用于图像合成,检索给定图像、指定位置(例如,放置框)和可放置对象的数据库的语义兼容和正确放置的对象。物体放置(对于2D图像)是预测图像中物体可能到达的合理位置的任务。方法包括监督(33;27个;31日;15;35)和弱监督方法(34;5).前者使用人类注释的数据集(如OPA(13))进行训练。

然而,与前景对象搜索和绘制不同,OPA(13)不模拟对象的几何形状或姿态;因此,虽然在OPA上训练的模型可以学习到餐具(如盘子)经常出现在桌面上,但最终的合成结果通常是不现实的(图7)。我们观察到,在OPA上训练的模型对更多样化和更真实的场景的泛化能力很差;OPA中的标签通常是低质量的或有偏差的(详见图6),这突出了手动收集数据的困难。弱监督方法采用暴力处理大型图像数据集(18;7)为了找到包含感兴趣的对象和足够的场景上下文的相关图像(34),或者他们在有限的领域工作,如街道图像(31;5). DreamPlace的不同之处在于,它为一组特定的对象类生成图像数据集;这意味着DreamPlace不需要明确地预处理或过滤数以百万计的图像,也不需要将自己限制在容易获得宽场景图像的领域。然而,DreamPlace确实依赖于预训练的扩散模型来生成足够可信的训练场景

DreamPlace与(23;26日;6)利用扩散模型合成训练数据,用于分类或图像相似任务。Instruct Pix2Pix(3)使用大型语言模型(LLM)(4)和Stable Diffusion(21)生成图像编辑示例的配对数据集。DreamPlace采用了与(3)类似的方法,但针对对象插入任务的挑战。

算法

DreamPlace使用两步流程将给定类别的对象插入给定的输入图像。

  • 首先,放置网络P分析空场景图像,并提出物体的粗略位置和比例,表示为边界框(3.1节)。
  • 使用预训练的Stable Diffusion (21) in-painting模型(我们称之为D)生成的合成数据来训练P,然后使用D来合成(inpaint)所提出的边界框中的新对象(第3.2节)。我们将描述DreamPlace的关键细节,并将完整的实现细节委托给附录A。

放置模型

给定一个描述场景的图像,放置模块的目标是在图像中提出一个表示粗放置指令的边界框。由于对象类的列表是已知的,我们为每个类生成数据,并为每个对象类训练独立的、专门的放置模型。我们训练放置网络P,在给定RGB图像$x\in{\mathbb{R}^{128\times 128\times 3}} $和二进制掩码$m\in{0,1}^{128\times128} $的情况下预测可信度评分,该掩码为提议对象编码一个边界框。P是ResNet-18,具有4个输入通道- x和m连接-并使用正负对进行训练;也就是说,一个掩码编码一个可信的盒子vs一个随机生成的盒子。训练中使用的损失是二元交叉熵,这在分类任务中很常见。

为了在测试时推断整个图像的位置,我们使用网格和不同的框尺度(类似于(34))生成m的候选点,并将预测的分数聚合到2D热图中。然后,我们根据盒子的置信度得分和该区域热图的平均值的加权和对盒子进行排序。得分最高的方框是预测的可信区域。A.1节提供了进一步的细节和直觉。

训练数据集的生成

为了训练P,我们合成了一个由图像和相应的物体位置(位置和尺度)组成的大型训练对数据集。从互联网或现有数据集中获得这样的图像是具有挑战性的(34),这激发了我们的生成方法。

我们使用文本-图像扩散绘画模型D,它以图像$x\in{\mathbb{R}^{512\times 512\times 3}} $,二进制绘画掩码$m\in{0,1}^{512\times512} $和文本提示符作为输入。作为启动映像,我们下载少量实例分割的种子对象(例如,50台笔记本电脑)。这些对象不需要场景背景,并且很容易从任何主要的网络搜索引擎中抓取。我们将对象和它的分割蒙版随机粘贴在一个512 × 512的画布上,并使用D来绘制蒙版外面的像素。描述性文本提示有助于扩散模型生成真实连贯的图像;


因此,我们查询一个大语言模型(LLM)(16),以获取定义对象类及其上下文的关系的文本提示:例如,“桌子上的笔记本电脑”。给定上述输入,D生成一张包含种子对象的512 × 512画图。最后,我们使用LaMa(12)来移除种子对象(通过inpainting)。最终的修复图像和种子对象的边界框掩码被用作放置网络的伪标记训练对x和m。

截图


图3演示了完整的数据生成管道。我们对不同的文本提示、种子对象和随机生成的画布重复此过程,以合成一个大型训练集。我们发现提高生成图像质量的一个小优化是逐步淘汰上下文(例如,淘汰两次);第一轮外画生成中等宽度的上下文,第二轮在最终图像中生成剩余的上下文。由于每轮外画只需要在最终图像中合成一小部分像素,因此它避免了D忽略种子对象并在外画区域太大时生成新的大对象的常见失败情况(参见附录中图5中的示例)。


使用文本引导图像扩散的对象合成

给定由P产生的建议对象放置边界框,我们使用扩散模型D(通过文本引导的绘制)在建议框(x1, y1, x2, y2坐标)内合成所需类别的对象。这是通过将提案框填充50%,裁剪并使用d绘制未填充的区域来完成的。文本提示符指定要放置的类别;例如,要添加一台笔记本电脑,提示符将是“一台笔记本电脑”。图4显示了插入对象的示例。我们发现,在粗糙的放置指导下,稳定扩散(D)能够在保留场景其余部分的同时,对合理放置和协调的物体进行涂漆。

截图

实验

我们根据基于扩散的基线(第4.1节)以及最先进的对象放置基线(在OPA(13)上进行培训)评估DreamPlace放置对象的能力;4.2节)。

基于扩散方法的定性比较

我们将DreamPlace与两个简单的稳定扩散(SD)绘制基线和directtpix2pix(3)进行比较。首先,我们考虑使用SD绘制覆盖大部分图像的大框-即让SD决定位置。其次,我们考虑SD给定一个随机选择的位置和规模。这两个原始的基线证实了SD本身缺乏放置对象的规划能力,并且随机盒子不太可能是合理的放置。指导Pix2Pix(3)是最近的方法,为有针对性的图像编辑使用文本;我们表明,我们表明,对对象放置进行编辑也是不够的,这也是本文的重点。

我们在办公室、客厅、城市街道等真实世界场景的各种互联网图像上测试了这些方法。我们选择了常见的对象作为评估类别,包括笔记本电脑、碗、杯子和键盘等桌面对象;汽车和行人等街景对象;以及绘画、钟表和鸟等其他类别。这些类别可以由稳定扩散生成,并且通常只占场景的很小一部分。

图4显示了定性结果;扩展结果见附录中的图12-13)。使用SD修复大区域会显著修改场景,生成通常不再描述原始场景的新图像。随机放置会导致插画对象位于不太可能的位置且大小不正确。当提示描述添加到场景的对象级别时,指令Pix2Pix失败。DreamPlace引导的修复能够在合理位置添加小型对象,同时仍保留场景上下文。

目标放置基线的定性比较

我们还将DreamPlace与最近发布的对象放置基线进行了定量比较:**Terse(27)、PlaceNet(31)和GracoNet(33)**。这些方法预测给定场景图像的位置和比例(例如,框),并且直接在OPA(13)数据集上训练。GALA(34)等弱监督方法的代码和数据尚未公开提供。


我们的评估数据集包括桌面对象放置的100个场景和四种类型的对象(笔记本电脑、键盘、杯子和碗)。为了为场景的放置产生一个地面真实标签来计算定量度量,我们手动地为对象在这些图像上的放置标注看似合理的表面。附录中的图9显示了测试场景和标签的示例。由于无法列举评估数据集中所有好的放置框,因此我们使用两个自动但客观的指标来量化性能。虽然这并不能充分说明好的排名,但在这些指标上表现不佳意味着排名不佳。

  • 指标1:面积上的交点。我们希望一个好的对象放置与可行区域有面积相交-即放置在曲面上。较小的交叉点或没有交叉点将意味着该对象是浮动的。我们不关心对象未占用的曲面面积。
  • 指标2:平均移动量。假设一个物体不在合理的区域内。然后,我们测量它与最近的合理区域的接近程度:即移动位置所需的距离。我们通过从预测的对象边界框的底边到场景中任何可能的表面的平均距离(以图像维度的分数表示)来近似这一点。
  • 指标 3:视觉质量评估。我们在不同的放置建议方法的指导下对 SD 生成的图像进行定性评估。该指标是合理的输出图像的百分比,由两个标准定义:(1) 新对象是否与表面合理交互,(2) 对象是否具有合理的比例。表 2 列出了 DreamPlace 和基线 (27; 31; 33) 的结果。我们还包括随机安置建议作为基线。总体而言,DreamPlace 生成的合格图像比例较高。由于 DreamPlace 提出了更准确的编辑区域,因此在对象插入期间也减少了场景级别的更改。示例和分析请参见附录中的图10。

我们与在整个 OPA 数据集上训练并按类别专门训练的基线进行比较。 DreamPlace 与后者最具可比性,因为我们专门针对每个对象类,但为了完整性我们将两者都包含在内。结果如表 1 所示。总体而言,DreamPlace 生成更加本地化和准确的放置位置,在这两个指标上都优于所有先前的方法。图 10 根据 DreamPlace 生成的基线和热图推断出的边界框。

截图

对于端到端评估,我们测试了 Stable Diffusion 在给定来自 DreamPlace 和基线的建议边界框的情况下修复最终对象的能力;我们预计糟糕的提案也会妨碍合成该对象的能力。

讨论

DreamPlace 是一个概念证明,表明现有的文本图像扩散模型可以用作弱标记数据集生成器和对象合成器来执行对象放置任务。我们确定了未来工作的一些改进措施。

  • 首先,可以扩展对象集。目前,DreamPlace 需要一个实例分段器来为数据生成提供对象种子;零样本模型(10)将支持任意对象。
  • 其次,更新的对象生成方法 (29) 可以用作稳定扩散 (21) 的替代品。
  • 第三,DreamPlace 并未针对速度和效率进行优化——热图生成成本高昂。最近的对象放置文献 (35) 的优化或训练通用的多类 DreamPlace 模型可以提供效率增益。

文章作者: oceanechy
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 oceanechy !
  目录