基于生成式对抗网络的图像边缘检测外文翻译资料

2022-12-18 15:43:09

英语原文共 4 页，剩余内容已隐藏，支付完成后下载完整资料

基于生成式对抗网络的图像边缘检测

摘要：本文提出了一种方法来准备从边缘检测开发重建对象的质量。像pix2pix这样的条件生成对抗网络，是通过一种损失函数来训练输入图像和输出图像的映射。在使用单映射的情况下，不能保证X中的所有样本和Y中的所有样本都合理地对应。因此，通过利用双射，本文对pix2pixU-net进行优化，这可以进一步优化该模型，从需要修复的边缘检测重建对象。这些可以让本文的方法在通过边缘检测生成的图像进行训练的时候，模型崩溃的概率更低，并确保图像结果更类似于样本。

关键词：跟踪；生成式对抗网络；边缘检测；双射映射

介绍

Canny边缘检测最初是由John Canny在1986年在“边缘检测计算方法”一文中提出的，这开启了canny边缘检测算法的帷幕。Canny边缘检测是一种从不同视觉对象中提取有用结构信息，并大大减少要处理的数据量的技术，这种算法已广泛用于各种计算机视觉系统。Canny进行边缘检测的处理技术，在不同的视觉系统中是相似的，因此可以实现具有广泛应用意义的边缘检测技术。

此外，研究人员还发现了整体嵌套边缘检测（HED）。随着卷积神经网络的发展，这种算法可以应用于图像处理的许多方面。HED是一种端到端的边缘检测系统，因此可以基于图像到图像端到端的过程全面地用于指示边缘预测的结果是。虽然“嵌套”强调了在图像输出时不断继承和学习以获得准确边缘的过程，不过这些优点都归功于神经网络的发展。

但近年来，随着反神经网络的发展，一些新的思路出现了，如pix2pix，CycleGan，DiscoGan，DualGan，这些算法现在图像翻译领域很流行。这些基于对抗生成网络想法的结果，比先前的网络模型的结果要更好。因为这个原因，我们对于该领域的研究已经有了一段时间，并且对pix2pix有了新的想法。起初，我们只是想利用pix2pix模仿手工绘制的猫的图案。但是当我们使数据集不同时（例如手绘图片中有一些空白），结果就会不如意。因此，我们将网络架构从单射更改为双射。然后，我们改善了pix2pix在边缘检测领域的应用。

相关工作

我们关注了许多领域的条件生成对抗网络的应用研究已有一段时间了。在这段关注时间中，我们发现条件生成对抗网络在图像到图像的转换中发展非常迅速。这些网络可以学习损失函数来训练输入图像到输出图像的映射关系。实际上，像pix2pix或CylcleGAN这样的条件生成对抗网络，可以很有效的实现从标签图合成照片，从边缘图重建对象，使用表达事物的关联性的两个对象的映射来修复图像。但是，当我们运行单映射的pix2pix来准备获得结果时，有时会看到模型会崩溃。

条件生成对抗网络（CGAN）与生成对抗网络（GAN）不同。GAN的训练过程可以与警察抓贼的过程相类比----模型G是小偷，模型D是警察。这意味着小偷G应该试图改善自己欺骗警察D的手段，至于警察D，需要改善他们的识别小偷G的能力。因此，GAN框架下的学习过程成为生成模型G与判别模型D之间的竞争关系。最终判别模型的准确性等于50％，整个模型的状态达到纳什均衡。然而，GAN在没有预建模的情况下过于自由，基于GAN的这种方法对于生成具有更多像素的较大图像来说，太不可控制。为了解决上述问题，很自然的想法是考虑向GAN添加一些条件约束。在生成模型G和判别模型D中，添加条件约束y以指导数据生成过程。条件可以是任何补充信息，例如类标签，其他模态数据等，以便GAN可以更好地应用于跨模态问题，例如图像自动标注问题，比如图1。

生成器G使用U-net结构，并且将输入轮廓图x解码为真实图像。鉴别器D使用作者自己提出的条件鉴别器Patch-GAN。鉴别器D作用在等轮廓图x中。在该条件下，生成的图像G（x）被判断为假，并且这种判断为真。

Pix2pix也是图像到图像的生成网络。过去，GAN通过随机噪声生成图像，这并不能满足人们的需求。因此，图像到图像的转换工作是由pix2pix 实现的。如图所示，左图像和右图像的对称性，条件生成对抗网络需要特定配对的数据集，这对于训练更方便，这是条件这个词的起源。

方法

对于人类来说，通过手绘来区分绘画是如此容易。我们的常识，和从生活中学到的知识，告诉我们这是什么。但你真的知道整个识别的过程吗？1981年诺贝尔医学奖被授予David Hubel和Torsten Wiesel以及Roger Sperry。前两位作者发现了视觉系统的信息处理，并推断出视觉神经是分层的。人类的视觉原理如下：从原始信号摄入开始，然后进行初始处理，然后抽象，然后进一步抽象。我们能做到这一点的原因是存在低层关系或隐含关系。在两个字段之间（X，Y）。这种隐式关联可能是同一事物有两种不同的映射表示，然后在同一事物的两个表达式之间存在关联。如果我们采用对应于GAN的映射关系，就应该像学习从随机噪声向量z到输出图像y，G：z → y 的映射的模型。

相反，条件GAN是学习从观察图像x和随机噪声向量z到y的映射，G：{x，z}→y。但是我们不能保证X中的所有样本和Y场y中的所有样本都是合理对应的。这也可能导致模型崩溃的问题。因此，我们希望通过添加提取物G并尽可能地使G1（?2（?））= x来改善这个问题。

1. 损失函数据

在开始时，我们尝试使用CycleGAN的方法。CycleGAN有两个完全不同的发生器和鉴别器。一个发生器将X域的图像转换为Y域的图像（由G表示），而另一个发生器则相反，由F [4]表示。两个鉴别器??和DY都尝试区分两个域中的真假图像。他们识别循环一致性的损失来控制模式崩溃的问题。数学公式是：

函数应该是循环一致的：对于来自域X的每个图像x，图像转换周期应该能够使x回到原始图像，即x → G（x）→ D（G（x））asymp;x [1]。我们将此称为前向循环一致性。对于来自域Y的每个图像y，G和F还应满足后向循环一致性：y → D（y）→ G（D（y））asymp;y [4]。这是CyleGAN设定的惩罚。这种惩罚可以防止模式崩溃的问题。如果没有这个循环一致性项，网络将输出更逼真的图片，但无论输入如何，它都将是相同的输出。如果添加循环一致性，相同的输出将导致循环一致性的直接失败。这些规定改造后的图像不仅需要真实的，还需要原始图像的信息。

与CycleGAN相比，pix2pix在监督学习方面更加严谨。Pix2pix使机器知道图像属性的标签。发现以前的方法发现混合GAN是有益的目标与更传统的损失，如L2距离。鉴别器的工作保持不变，但是发生器的任务不仅是欺骗鉴别器，而且还要接近L2意义上的地面实况输出。他们也探索这个选项，使用L1距离而不是L2，因为L1鼓励减少模糊：

相比之下，我们决定使用CycleGAN来改进单射问题。也许，当测试图像的分辨率时，pix2pix具有更多优势。如果图像的分辨率稍低，也许使用pix2pix进行边缘贴图可以获得更逼真的图像。最后，我们同意我们确保CycleGAN的损失功能更加普遍。我们可以看到他们的完整目标是：

在这个公式中，alpha;控制着两个目标的相对重要性。

1. 网络架构

Pix2pix首先使用U-net让输入和输出图像的表面外观不同。相反，底层结构应该是相似的。对于图像转换的任务，输入和输出应该共享一些基础信息，因此U-net被用作跳过连接层。

正如我们刚才所说，U-net在网络中具有令人满意的性能，具有本地感知的质量。但是，我们必须检测每个补丁，以便我们浪费等待训练网络的时间有点长。我们希望让我们的等待时间比以前更短。因此，尽管它具有出色的性能，但我们还是放弃了使用U-net。

编码器-解码器是传统的网络架构。对我们来说，编码器-解码器网络架构无论是本地感知还是全局控制都不比U-net好。但是，我们发现跳过连接是一种跳转传输。据我们所知，普通的编码器-解码器结构的每一层都是直接输入的。残差网络只是其中之一，因此它在输入和输出之间丢失了一些共享信息。我们改进了编码器解码器，添加了像残差网络一样的跳过连接，并将一些输入信息保存到输出中。效果并不比U-net差。而且，运行速度大大提高。

该网络比原始功能更容易学习。当残差为0时，此时，累积层仅进行同一性映射。至少网络性能不会降低，并且残差不会为0，这也将使累积层基于输入特性学习新特征。因此，它具有更好的性能。

实验

首先，感谢iGAN提供数据集（来自iGAN项目的Amazon Handbag图像。边缘由HED边缘检测器后处理计算）。我们使用此数据集培训和测试。由于只有8.6GB的图像，我们使用K-fold交叉验证。K折交叉验证是指将训练数据D划分为K个部分，使用其中的（K-1）训练模型，并使剩余的1数据评估模型的质量。该过程在K数据上顺序循环，并对获得的K评估结果取平均值。

主要原因是我们的数据有限。当数据量不够大时，如果所有数据都用于训练模型，则很容易导致模型过度拟合。通过交叉验证数据分区和评估结果的整合，我们可以“有效地”减少模型选择的方差。换句话说，我们期望模型在训练集的多个子数据集上表现良好，这比仅在整个训练数据集上表现好。

我们在某些方面估计我们的方法和其他流行的模型：

表 1 边缘检测性能不同

损失	每像素准确率	验证准确率	时间
Pix2pix	0.67	0.65	1
CycleGAN	0.58	0.52	0.82
本文结果	0.66	0.64	0.79

我们用pix2pix和CycleGAN比较显示我们的方法有一个不错的结果。每像素准确率确实意味着我们检测每个像素的准确度。显然，Val acc确实意味着整个验证数据集的准确性。最后，我们将测试属性设置为时间，但是当您在不同的机器中训练模型时，您将获得各种结果。显然，例如，我们租用了谷歌服务器来训练模型。我们花费的时间比我们的个人电脑短得多。我们界定pix2pix时间等于1.我们将同一服务器中的时间与三个Nvidia GTX 1080ti显卡进行比较。在跳过连接的情况下，CycleGAN的时间和我们减少约20％的时间。

图像来自亚马逊。我们可以发现那些方法有不同的效果，但一般来说，手提包的形状没有太大区别。也许所有三个网络都使用类似的架构。例如，他们的所有鉴别器都是Patch-GAN。Patch-GAN的想法是，由于GAN只负责处理低频分量，因此鉴别器不需要使用整个映射作为输入，只需要修补Ntimes;N的图像来区分。这就是为什么它被称为马尔可夫鉴别器，因为补丁之外的部分被认为是独立于这个补丁。我们使用Ntimes;N输入的完全卷积小网络，每个像素通过sigmoid输出的概率为真，然后使用BCEloss计算最终损失。

对于图像的不同样式，我们认为我们使用与CycleGAN相同的跳过连接，因此所有结果都有些相似。但实质上，我们通过编码器 - 解码器而不是Resnet网络结构存在风格差异。当然，pix2pix使用U-net，所以风格非常不同。在前面的章节中，我们提到U-net并不坏，但培训时间太长。

总结

本文的结果假设在边缘检测问题上，我们可以采取更多的想法来改进我们的结果。从canny到HED，然后从HED到pix2pix，性能有所提升。作为一个新兴的神经网络，GAN从这条道路上获得了意想不到的优势。解决了U-net网络结果处理繁琐耗时的问题，并且不会丢失准确性。同时，我们的方法确保生成的图像样式更准确，防止以前的pix2pix模型容易崩溃的问题。

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[20170]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码