拼接匹配：一种用于结构图像编辑的随机对应算法外文翻译资料

2022-12-17 14:43:39

英语原文共 12 页，剩余内容已隐藏，支付完成后下载完整资料

拼接匹配：一种用于结构图像编辑的随机对应算法

Connelly Barnes¹ Eli Shechtman^2,3Adam Finkelstein¹ Dan B Goldman^{2 1}Princeton University ²Adobe Systems ³University of Washington

图1 结构图像编辑。从左到右：（a）原始图像；（b）标记了一个孔（洋红），我们使用线条约束（红色/绿色/蓝色）以提高屋顶线的连续性；（c）填充了孔；（d）用户提供的用于重定目标的线约束；（e）使用约束重定目标将自动消除两列；（f）用户使用重新变换向上转换屋顶。

摘要:本文提出了一种基于随机算法的交互式图像编辑工具，用于快速确定图像补丁之间的近似近邻匹配。以前在图形和视觉方面的研究利用了最早的社区搜索来提供高级数字图像编辑工具的可用性。但是，因为整个图像计算此类匹配字段的成本在以前无法提供交互性能。我们的算法比以前的技术水平（20-100x）有了实质性的性能改进，使其能够用于交互式编辑工具。驱动该算法的关键是，通过随机抽样可以找到一些很好的补丁匹配，图像中的自然一致性允许我们快速地将这种匹配传播到搜索区域。我们对该算法的收敛性进行了理论分析，并提供了其高质量和高性能的实例和实践证据。这一简单的算法构成了各种工具（图像重定目标、完成和重新着色）的基础，这些工具可以在高级别的气候条件应用程序中一起使用。最后，我们在显示过程上提出了条件约束，为用户提供了在以前方法中不可用的控制级别。

CR类别：I.3.6[计算方法学]：计算机图形方法学和技术；I.4.9[计算方法学]：图像处理和计算机视觉应用。

关键词：近似最近邻、基于补丁的合成、图像编辑、完成、重定目标、重新着色

1介绍

随着数字和计算摄影技术的成熟，研究人员已经开发出高水平编辑数字照片和视频的方法，以达到一系列期望的目标。例如，最近的图像重定目标算法允许将图像大小调整为新的像素，计算机自动生成原始图像内容的良好相似性，但具有新的维度[Rubinstein等人2008年；Wang等人2008]。图像完成的其他算法允许用户简单地删除图像中不需要的部分，计算机自动合成与图像其余部分合理匹配的所有区域 [Criminisi等人2003年；Komodakis和Tziritas，2007年]。图像刷新算法可以抓取图像的一部分并四处移动-计算机自动合成图像的其余部分，以便在尊重移动区域的同时与原始图像相似。[Simakov 等人2008年; Cho 等人 2008年]。

在这些场景中，用户交互是必不可少的，原因有几个：首先，这些算法要求时间进行交互以获得最佳结果。例如，重定目标算法有时提供用户控制，以指定一个或多个区域（例如，面）应保持相对不变。同样，最佳完成算法通过为计算机提供提示来提供指导结果的工具[Sun等人2005]。这些方法提供这些控件是因为用户正试图优化一组他知道而不是计算机知道的目标。第二，用户甚至不能事先明确地表达这些目标。创建所需图像的艺术过程需要使用试错法，因为用户试图根据考虑中的图像的特定个人标准优化结果。

交互在艺术过程中的作用对于理想的图像编辑框架意味着两个特性：（1）工具集必须提供灵活性，以便用户进行各种无缝编辑操作，以探索他们的想法；（2）这些工具的性能必须足够快，以便用户快速看到中间的试错过程中的结果。大多数高级编辑方法只满足其中一个条件。例如，一个被称为非参数补丁采样的算法家族已经被证明能够执行一系列编辑任务，同时满足文件准则–灵活性[Hertzmannel.2001；Wexler等人2007年；Simakov等人2008]。这些方法基于小的（例如7x7）多尺度的密集采样斑块，能够合成纹理和与输入图像定性相似的复杂图像结构。由于它们具有保持结构的能力，我们称之为这类技术，即结构图像编辑。不幸的是，到目前为止，这些方法还没有达到第二个标准——在所有的小图像上都可以交互使用。然而，本文将描述一种至少按数量级加速计算方法的算法，使其能够应用于交互式结构图像编辑框架中。如图2所示。

图2 交互式结构

为了理解该算法，我们必须考虑这些方法的共同组成部分：在一个图像区域中，对于另一个图像区域中最相似的补丁。换言之，给定图像或区域A和B，根据补丁距离度量（如lp）查找B中最近邻中的每个补丁。我们称之为最近邻域（NNF），如插图所示。使用简单的强力搜索来解决这个问题是很昂贵的——对于图像区域和大小分别为m和M像素的补丁，O(mM ²)是很昂贵的。即使使用诸如近似邻域的加速方法[mount和arya，1997]和维数减少，这一搜索步骤仍然是非参数面片采样方法的瓶颈，阻止它们达到交互速度。此外，这些基于树的加速结构使用O（M）或更高阶的内存，并且具有较大的常量，限制了它们在高分辨率图像中的应用。为了确定计算机的近似值，我们的新算法依赖于对问题的三个关键观察：

航天部维数偏移。首先，尽管面片空间的维数很大（M维），但它是稀疏的（O（M）面片）。许多以前的方法通过使用树结构（例如，可以在O（mMlogM）时间中搜索的kd树）和降维方法（例如，pca）攻击补丁空间的维数来加速最近邻搜索。相比之下，我们的算法在二维空间中搜索可能的补丁偏移，从而获得更高的速度和内存效率。

图像的自然结构。其次，通常对每个像素的独立搜索忽略了图像中的自然结构。在补丁采样合成算法中，输出通常包含来自输入的大量连续数据块（如Ashikhmin[2001]所观察到的）。因此，我们改进了高效的类型化搜索，以一种相互依赖的方式搜索相邻的像素。

大数定律。最后，尽管任何一个随机选择的补丁分配都不太可能是一个好的猜测，但一些非平凡的实践可能是一个好的猜测。随着磁场的增大，没有一个补片具有正确偏移的可能性会变得非常小。

基于这三个观察结果，我们提供了使用增量更新计算近似NNF的随机算法（第3节）。该算法从一个初始猜测开始，该猜测可能来自先前的信息，也可能只是一个随机字段。操作过程包括软件过程：传播，在传播过程中使用相干性将好的解传播到场中的相邻像素；以及随机搜索，其中当前偏移矢量受多个随机偏移比例的干扰。我们从理论和经验两方面证明了该算法对于高达2百万像素的测试图像具有良好的收敛性，并且我们的CPU实现比使用PCA的kd树加速20-100倍。此外，我们还提出了一种GPU实现，对于类似的图像尺寸，其速度大约是CPU版本的7倍。我们的算法除了原始图像外，几乎不需要额外的内存，这与以前构建辅助数据结构以加速搜索的算法不同。使用我们算法参数的典型设置，运行时是O（mMlogM），内存使用是O（M）。尽管这与最有效的基于树的加速技术是相同的渐进时间和内存，但领先的常量要小得多。

第四部分，我们演示了该算法在具有三种交互编辑模式的结构图像编辑程序中的应用：图像重定目标、图像完成和图像重新开始。该系统包括一组工具，通过允许用户以直观和交互式的方式约束合成过程，提供额外的控制过度的方法（图1）。我们工作的贡献包括一个快速随机近似算法用于计算，然后在两个不相交的图像区域之间搜索；该算法在一个结构图像编辑框架内的应用，该框架可实现高质量的交互式图像重定目标、图像完成和图像重绘；以及一组直观交互式控件用于约束优化过程以获得所需的创造性结果。

2相关工作

基于补丁的采样方法已经成为图像和视频合成和分析的一种流行工具。应用包括纹理合成，图像和视频完成，总结和重定目标，图像重组和编辑，图像拼接和拼贴，新的视图合成，噪音记忆等等。接下来我们将回顾其中的一些应用程序，并讨论它们使用的常见搜索技术以及它们的交互程度。

纹理合成和完成。Efros和Leung[1999]介绍了一种简单的非参数纹理合成方法，该方法通过从纹理示例中采样斑块并将其粘贴到合成图像中，优于许多以前基于模型的方法。进一步的改进修改了搜索和取样方法，以更好地保存结构 [Wei和Levoy 2000；Ashikhmin2001；Liangetal.2001；EfrosandFreeman2001；Kwatra等人2003年；Criminisi等人2003年；Drori等人2003。] 贪婪的公司将这些算法的时间安排在生产具有复杂结构的大孔的不一致性上，但是Wexler等人[2007]初步将完成问题定义为全局优化，从而获得更为全球一致的大型缺失区域的完成。这种迭代的多尺度优化算法反复搜索所有平行孔像素的最近邻补丁。虽然最初的实现速度通常很慢（对于小于1 mp的图像只有几分钟），但我们的算法使这种技术适用于交互速率下的更大图像。基于贴片优化的方法现在已经成为纹理合成中的常见做法。[Kwatra等人，2005; Kopf等人2007; Wei等人2008]在该领域，Lefebvre和Hoppe[2005]使用了相关的并行更新方案，甚至演示了基于GPU的实时实现。Komodakis和Tziritas[2007]提出了另一个全局优化公式，用于使用具有自适应优先级消息方案的循环信念传播来完成图像。虽然这种方法取得了很好的效果，但它仍然相对缓慢，而且只在小图像上得到了证明。

最近邻搜索方法。补丁优化方法的高综合质量是以更多的搜索迭代为代价的，这是所有这些方法中明显的复杂性瓶颈。此外，在纹理合成中，纹理示例通常是一个小图像，而在基于补丁的完成、重定目标和重新着色等其他应用中，输入图像通常要大得多，因此搜索问题更为关键。本研究提出了各种各样的速度，通常涉及树结构，如tsvq[Wei和Levoy 2000]，kd trees[Hertzmann等人2001年；Wexler等人2007年；Kopf等人2007年]，以及树木副总裁[Kumar等人2008年]，每个都支持精确和近似搜索（ann）。在合成应用中，近似搜索经常与维数教育技术相结合。[2001年；Lefebvre和Hoppe 2005年；Kopf等人2007年]，因为人工神经网络方法在低维空间中的时间和记忆效率更高。Ashikhmin[2001]提出了一种利用合成过程中的局部相干进行局部传播的技术。

将补丁的搜索空间限制在示例纹理中相邻补丁的源位置。我们的传播搜索步骤受到相同的一致性假设的启发。k-相干技术[Tong等人2002]将传播思想与一个预计算阶段结合在一起，其中每个批次的K neast Neighbor邻被缓存，以及这些预计算集的最新原型。虽然这加速了搜索阶段，k-相干仍然需要对输入中的所有像素进行完全最近邻搜索，并且仅在纹理合成的上下文中进行了演示。它假设初始偏移量足够接近，因此只搜索少数最近的邻居。这对于小的纯纹理输入可能是正确的，但我们发现对于大的复杂图像，sourrandom搜索阶段需要避开局部极小值。在本研究中，我们将我们的算法的速度和内存使用率与具有降维的kd树进行了比较，并且我们发现它至少比最佳竞争组合（ann pca）快一个数量级，并且使用了无意义的内存。我们的算法也比Kd树提供了更多的通用性，因为它可以应用于任意距离度量，并且易于修改以实现局部交互，如约束完成。

控制和交互。贴片采样方案的一个优点是它们提供了大量的线性比例控制。例如，在纹理合成中，Ashikhmin[2001]的方法通过使用所需颜色初始化输出像素，为用户提供对过程的控制。Hertzmann等人的图像类比框架。[2001]使用辅助图像作为“引导层”，实现多种效果，包括超分辨率、纹理传输、艺术过滤和按数字显示的纹理。在图像完成领域，通过注释穿过缺失区域内外的结构，显示了令人印象深刻的引导性搜索结果[Sun等人2005]。首先使用信念传播来填充线条，然后在其他区域应用纹理合成，但对于半MP图像，整体运行时间大约为分钟。我们的系统为行和其他区域约束提供类似的用户注释，但以交互速率在单一迭代过程中处理所有区域。Fang和Hart[2007]演示了一种工具，它可以在保留纹理的同时变形图像特征曲线，从而比我们的编辑工具能够进行更精确的调整，但不能以交互速率进行调整。帕维奇等人。[2006]提出了一个基于大片段的交互式完成系统，该系统允许用户在关联和粘贴片段之前确定本地3D透视图，以正确扭曲片段。虽然他们的系统交互地粘贴每个独立的片段，但用户必须手动单击每个完成区域，这样整个过程仍然会很乏味。

图像重定目标。许多图像重定目标的方法都采用了翘曲或裁剪，使用一些显著性度量来避免重要图像区域变形[Liu和Gleicher，2005年；Setlur等人，2005年；Wolfetal，2007年；Wangetal，2008年]。Seamcarving [Avidan和Shamir 2007；Rubinstein等人2008年]使用一种简单的贪婪方法对图像中的接缝进行优先级排序，该图像可以在重定目标时安全删除。虽然接缝雕刻速度很快，但它并不能很好地保护结构，而且只能对结果进行有限的控制。Simakov等人提出了将图像和视频重定目标问题框架化，使原始图像和输出图像中的小斑块之间的双向相似性最大化，Wei等人独立提出了类似的目标函数和优化算法。Wei等人[2008]作为一种快速合成纹理总结的方法。不幸的是，与石雕相比，石雕是最接近的。我们的受限重定目标和图像刷新应用程序使用与Simakov等人相同的目标函数和迭代算法，使用我们新的最近邻算法获得交互速度。在上述每种方法中，用户控制的主要方法都是确定和保护重要区域不受扭曲的能力。相比之下，我们的系统集成了特定的用户可定向约束，这些重定目标过程可以有效地防止弯曲或断裂，限制用户定义的区域以特定的转换，如统一或统一缩放，以及定义对象或对象以指定输出位置。

图3

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[20495]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码