基于生成对抗网络的面部模仿技术研究与实现文献综述

2020-04-14 08:04

1．目的及意义

近年来，面部模仿技术在动画、影视等商业领域上的应用越来越多，需求强劲。如在许多科幻电影中，通过面部模仿技术将人脸表情复制到其他形象面部上，大大降低了拍摄难度；以及在许多游戏中，通过摄像头捕捉用户表情再复制到其他用户或卡通形象的脸上，实现“换脸”效果等。其本质是提取面部五官和轮廓特征，再通过训练将这些特征转移到另一张脸上，从而实现面部模仿效果。

面部模仿的最终目的是生成符合面部特征分布的图像。这正是生成对抗网络（GAN，Generative Adversarial Networks）[1,2,3,4]所做的工作。Ian J.Goodfellow等人于2014年10月在《Generative Adversarial Networks》[4]中提出了一个通过对抗过程估计生成模型的新框架。框架中同时训练两个模型：捕获数据分布的生成模型G[4]，和估计样本来自训练数据的概率的判别模型D。G的训练程序是将D错误的概率最大化。这个框架对应一个最大值集下限的双方对抗游戏。可以证明在任意函数G和D的空间中，存在唯一的解决方案，使得G重现训练数据分布，而D=0.5。

既然是人脸模拟效果，GAN的目的不再是单纯地生成与数据集相似的输出，而是要根据某一个输入生成相对应的输出，即一个带约束的GAN（cGAN, Condition GenerativeAdversarial Networks）。Mirza M等人在2014年的《ConditionGenerative Adversarial Networks》[5]中提出了这项工作：在D和G的建模中均引入条件变量y，使用额外信息y对模型增加条件，可以指导数据生成过程。这些条件变量y可以基于多种信息，例如离散标签[5]、文本[6]甚至图像[7]。人脸模仿技术中的约束条件是通过人脸特征点定位技术（如姿态估计[8,9]、LBP[10,11]等）获得的一系列特征图。

然而针对每个应用设计一个cGAN是一件很麻烦的事，因此Phillip Isola等人提出了可以通过学习自动得到损失函数的pix2pix算法[12]。该方法基于cGAN，但由于其不用提前设定损失函数，所以不针对特定应用，也更为简单。其生成模型采用U-Net网络结构[13]，判别模型采用PatchGAN[14]形式。U-Net结构是对全卷积网络(FCN)[15]的改进，其网络结构类似一个U型，左侧通过类似牛津大学的视觉几何组（VGG，Visual Geometry Group）提出的小卷积核网络VGGNet[16]向下卷积，右侧进行上采样。与FCN不同的是，在每一层上采样后会进行卷积操作。通过实验可以发现pix2pix在大多数图像转换任务中都表现得很好，这也是本课题主要研究的方法。同时本课题探究通过在生成模型的解码器和编码器中增加一些层来提高分辨率。

近年来，流量、带宽越来越便宜，人们通过视频交换信息的场景将会越来越多。因此本课题将人脸模拟技术应用于动态场景。基于人脸特征点定位和pix2pix技术，在视频中实现实时的人脸模仿。

参考文献：

[1] E. L. Denton, S. Chintala, R. Fergus, et al, “Deepgenerative image models using a laplacian pyramid of adversarial networks”, NIPS,pp. 1486–1494, 2015. 2.

[2] A. Radford, L. Metz, and S. Chintala, “Unsupervisedrepresentation learning with deep convolutional generative adversarial networks”,arXiv preprint arXiv:1511.06434, 2015. 2, 3, 16.

[3] J. Zhao, M. Mathieu, and Y. LeCun, “Energybasedgenerative adversarial network”, arXivpreprint arXiv:1609.03126, 2016. 2.

[4] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,D.Warde-Farley, S.Ozair, A.Courville, and Y.Bengio, “Generative adversarialnets”, NIPS, 2014. 2, 4, 6, 7.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码