基于生成对抗网络的三维点云数据重建任务研究文献综述

2020-04-14 19:51:48

1．目的及意义

随着社会发展以及人民生活水平提高，智能机器人、无人驾驶、虚拟现实等新兴技术逐渐走入人们的视野，并悄无声息的改变的人们的生活方式。众所周知，我们生活在一个三维的世界，每天都不可避免地需要与三维模型接触。而在机器人定位、虚拟现实、医学图像处理等特定任务中，三维数据相比于传统的二位数据，更是占据了举足轻重的地位。

尽管计算机视觉在深度学习的帮助下取得了里程碑式的成果，遗憾的是它们却基本上服务于平面图像与视频等二维数据。

因为需要通过机器从已有的训练数据中自动学习到特征，所以深度学习算法是一种数据驱动的算法，而且其成败与数据的优劣密不可分。但是，能够被收集到的三维数据屈指可数，使得早期研究的三维数据规模远不如二维数据。“巧妇难为无米炊”，缺少必要训练数据，再强大的深度学习算法也无用武之地。这也成为了深度学习等数据驱动算法的主要瓶颈之一。

另一方面，三维模型的表示方式没有统一的规范。实际上，不同的表示方式也没有优劣之分，它们都可以在特定的需求和应用场景下发挥着无法替代的作用。

三维模型表示的多样性也使得三维深度学习分化为了许多不同的流派。目前，三维深度学习中常见的表示方式有五种：多视角图像、体素、三角面片、点云以及基于 CAD 原语的参数化表示. 其中，前两者是规则型的表示，所有数据都以张量的形式有规则地排列，就像图片和视频一样，故二维深度学习中的思想和算法能够直接应用于这类形式的数据；后三者是非规则型的表示，不能与已知的数据形式类比，也没有二维深度学习的算法能直接处理。目前，非规则型的表示成为了当今三维深度学习的重点研究方向。

最后一个制约三维深度学习的因素是三维数据自身的大小。在表现形式上，三维数据比图像等二维数据多了一维，因此要直接借用二维深度学习的思路达到与之等效的结果，计算量至少需要增长一个数量级。这通常是客观条件所不允许的。

以体素表示为为例，经典的 AlexNet使用了尺寸为224×244的 RGB 图像作为输入，如果把它直接扩展为224×244×244的三维体素表示，则硬件需求和计算时间至少要增加两百倍。在时间和硬件资源的双重限制下，我们不得不做出折衷和妥协。

值得庆幸的是，并不是所有的表示方式都像体素一样庞大。

点云就是这样一种简约的表示方式，其本质是在三维模型的二维表面上进行采样，形式上记录着三维的信息，但实则只有二维的数据量。虽然没有经典的二维深度学习方法可以直接借鉴，但只要设计好合理的方式进行处理，点云这种新兴的表示方式必将为三维深度学习指出一条崭新的出路。

Haoqiang Fan等人是第一个将点云引入三维深度学习的工作，开创了历史先河。此工作的核心目标是希望从输入的单张 RGBA 图像中直接重建出物体的三维结构，并以点云的形式输出结果。此工作最大的贡献在于提出了点集之间的度量方案，即Chamfer 距离(Chamfer Distance, CD) 和推土机距离(Earth Mover's Distance, EMD)。利用这两个度量，我们很容易定义模型输出与真实情况的差距，即损失函数。只要最小化上述损失函数，我们就可以得到高质量的模型，从而解决问题。

PointNet的提出，解决了点云数据的分类与分割问题。此工作从点集的排列不变性入手，提出了使用对称函数来处理点云输入的观点。对称函数是一类数学函数，其输出不随输入变量的排列而发生变化。例如对一组数相加、相乘、求最大值或者最小值等，都是对称函数。点云的分类和分割同样是对称函数。只要以对称函数作为模型架构，就可以近似出一个合理的模型以解决问题。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码