基于生成对抗网络的图像翻译算法的设计与实现文献综述

2020-04-14 19:48:15

1．目的及意义

图像处理，计算机图形学，计算机视觉领域的许多问题都可以视为一张输入图像通过变换得到相应的另一张图像。类似于语言翻译任务，这种自动的将图像的一种表示场景变换到另一种场景的任务被称为图像翻译。传统的算法都是针对特定的应用场景而设计，建立适合特定场景的模型。近年来随着卷积神经网络的成功，其被用来作为图像翻译的模型，但对于具体任务的模型构建，损失函数设计及优化策略大不相同，这大大加重了模型设计的负担。类似于机器翻译中用一个模型来同时完成多种语言翻译任务一样，本次设计的目标是试图通过一个统一的框架来完成所有的图像翻译任务。

同时，现有的图像翻译任务都是基于监督学习的模型，需要大量的成对的训练数据，然而现实中获得这种成对的数据是很困难的，而且成本高昂。这就需要半监督算法来完成图像翻译任务。

图像翻译的想法至少可追溯到Hertzmann等人的图像类比法，该算法用一个输入-输出图像对训练一个非参数自回归纹理生成模型，在试阶段可以用该模型来生成输入相对应的输出图像。该算法再图像模糊，图像浮雕，纹理合成，图像超分辨率增强，艺术滤镜等任务上取得不错的效果。最近图像翻译工作都是通过大量输入-输出图像对来训练一个卷积神经网络模型。Dong等人提出一个端到端的卷积神经网络回归模型来完成图像超分辨率重建，该模型通过最小化输出和真实标签的欧氏距离来优化模型。但是通过最小化模型预测和真实标签之间的欧氏距离会使模型输出模糊的图像，这是因为最小化欧式距离的输出会取所有可能的输出结果的平均值。所以我们要设计新的损失函数来优化模型。

研究人员提出了不同的损失函数来代替均方误差损失，Zhang等用预训练VGG网络中间层的特征映射值来替代原始的图像像素值，通过最小化特征映射的均方误差来替代像素空间的均方误差，使得生成的图像更加真实。此外，条件生成对抗网络被用来生成目标图像。其中判别器用来判断图像是真实的目标域图像还是模型生成图像，生成器根据输入图像产生对应的输出。这样生成器就不会生成模糊的图像，因为判别器会把模糊的图像判别为假。生成对抗网络在图像生成领域用来完成图像的修复，图像生成，图像超声波增强，风格迁移等任务，取得良好的效果。

基于监督学习的图像翻译算法虽然具有优良的性能，但是需要大量的成对的输入-输出训练数据。很多情况下这种成对的数据很难获得或代价高昂，因此，需要一种可以再无成对数据或少有的成对的数据情况下训练模型的图像翻译算法。

{title}

2. 研究的基本内容与方案

{title}

1.1 研究目标

图像翻译就是将图像从一个场景变换到另一个场景，同时保留原有图像的一些结构和语义信息。典型的图像翻译任务包括图像去噪，图像增强，图像彩色化，图像语义分割和深度估计等。一张场景可以转换为RGB全彩图，也可以转化成素描，也可以转化为灰度图。一张夜景图也可以转化为这个地方的日景图。传统的来说，每一种转换，比如从灰度图到素描，或者从素描到灰度图，都是需要一种特定的算法。而Pix2pix的目标就是建立一个通用的架构去解决所有的这些问题。本次毕业设计就是用机器学习生成图片。

1.2 研究内容

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码