Gibson环境：体验代理的真实世界感知外文翻译资料

2021-12-14 22:46:11

英语原文共 12 页

Gibson环境：体验代理的真实世界感知

图1.Gibson环境下的两个代理，用于现实世界的感知。主体是活动的，具象的，受到物理和空间的约束（a,b）。它收到一个不断的视觉观测流，好像它有一个车载摄像头 (c)。它还可以接收其他形式，例如深度、语义标签或法线(d,e,f)。视觉观察来源于现实世界而非人工设计的空间。

摘要：在物理世界中，为活动代理开发视觉感知模型和感官控制是很麻烦的，由于现有的算法太慢，无法实时有效地学习，并且机器人脆弱且成本高昂。这就引出了仿真学习，但也给人们带来了一个问题，即结果是否会转化到现实世界。本文关注为活动代理开发现实世界感知的问题，为此提出了Gibson虚拟环境，并展示从中学到的示例感知任务。Gibson是基于虚拟的真实空间，而不是使用人工设计的，目前包括超过来自于 572 个完整建筑的1400 个楼层空间。Gibson的主要特点是: 1.来自现实世界，反映其语义复杂性，2.有一个内部的综合机制，“Goggles”能够部署在现实世界中训练的模型，而无需域自适应，3.代理的实施，以及使它们受到物理和空间的限制。

引言

我们希望我们的机器人代理人具有复合的感知和物理能力: 一架自动测量建筑物的无人机，一个迅速在灾区找到受害者的机器人，或一个安全地运送我们的包裹的机器人，这只是列举几个例子。除了应用的角度，支持视觉感知和身体活动之间密切关系的研究结果在很多方面都很普遍: 进化和计算生物学家假设在复杂行为和物种发展过程中，混合感知和运动的关键作用[65,95,24]；神经科学家已经激烈地争论在发展感知和活跃之间的关系[87,45]；先驱机器人主义者也同样主张两者的纠缠[15,16]。这一切都要求开发原则感知的模型，特别是考虑到活动代理。

由感知活跃代理我们通常指的是一个从环境中接收视觉观察的代理，因此，它可以导致环境中的物理变化 (操作)。以及/或代理人自己的详情 (移动)。发展这种感性的代理人包括如何做和在哪里这样做的问题。

在如何做的方面，这个问题一直是几十年来广泛话题的一个焦点，从经典控制到最近的感官控制 [35,58,59,5]，强化学习 [6,77,78]，他们是由预测 [30]，模仿学习 [25],以及其他概念 [63,106,97,96]起作用。这些方法通常假设在给定环境中的一个感官观察，随后设计一个或一系列的行动来执行一个任务。

一个关键问题是这种感官观察应该来自哪里。传统计算机视觉数据集 [34,28,61] 是被动的，静态的，因此，对这个目的来说是缺乏的。在物理世界学习，虽然不是不可能的 [40,7,59,67]，但不是理想的场景。它的学习速度会受到实时的限制，如果大规模并行，会产生巨大的成本，并忽略罕见的重要事件。机器人也往往是昂贵和脆弱的。这导致了仿真学习的普及性，其丰富的历史可以追溯到几十年前 [68,56,17] 并且今天仍然是一个活跃的话题。围绕这个选项的主要问题自然是从仿真推广到现实世界: 如何确保 1.仿真环境的语义复杂性是复杂的现实世界的很好的复制品，2.在仿真中渲染的视觉观察非常接近真实世界中的相机捕获 (真实感)。

我们试图解决其中的一些问题，并提出Gibson，一个用于训练和测试现实世界的感知代理的虚拟环境。任意的代理人，例如人型机器人或汽车 (见图1) 可以被引入，之后它将被体现 (即由它的身体所包含)，并放置在一个大而多样的实体空间中。代理通过与物理引擎的集成受空间和物理的限制 (例如:碰撞，重力)，但只要约束得到满足，就可以自由地执行任何移动任务。Gibson从任意角度提供了一系列的视觉观察，就好像代理有一个车载摄像机一样。我们的新渲染引擎运行速度明显快于实时，并提供稀疏扫描空间，例如，每5-10 平方米一幅全景。

Gibson的主要目标是促进将其中训练的模型转移到现实世界，例如当图像流切换到真实的相机，而不是Gibson的渲染引擎时，保持结果。这是通过以下做到的: 首先，诉诸于世界本身来表示自己的语义复杂性 [85,15]，形成基于扫描的真实空间的环境，而不是人工空间 [88,51,49]。第二，嵌入机制来消除Gibson的渲染和真正的相机产物的差异。因此，从真正的相机图像与相应的一个从 Gibson 的渲染引擎对于代理来说，在统计学上看起来不能区分，从而关闭了 (感知) 差距。这是通过使用基于神经网络的渲染方法实现的，这种方法联合训练了一个为了使渲染看起来更像真实的图像的网络(正向函数) 以及一个使真实的图像看起来像渲染图的网络(反向函数)。这两个功能都经过培训，以产生同等的输出，从而桥接两个领域。后向函数类似于代理的部署时间矫正眼镜，所以我们称之为 Goggles。

最后，我们展示了在Gibson中学习到的一组主动感知任务 (避障的局部规划、远距离导航、虚拟楼梯攀爬)。我们在这篇论文中的重点仅仅是视觉方面。这项陈述不应该被认为是在虚拟环境中学习的其他方面的必要推广，例如物理仿真。

Gibson环境和我们的软件栈为了研究目的已经公开在该连接http://gibson.vision/。Gibson 空间数据库的可视化可以在这里看到。

相关工作

活动代理和控制: 正如第一节所讨论的那样。操作和控制活跃代理一直是大量工作的重点。其中很大一部分是基于非学习的 [53,29,52]，虽然最近的方法已经尝试了利用模仿学习 [73]，强化学习 [78,44,77,44,5,6]，通过预测 [30] 或自我监督 [40,67,30,66,46]来学习可视化运动政策端到端 [106,58]。这些方法都是 (我们的和其他) 虚拟环境的潜在用户。

用于学习的虚拟环境: 传统地视觉是在静态数据集中学习的 [34,28,61]，当涉及到主动代理，使用就会受限。同样，视频数据集 [57,70,101] 是预先记录的，因此是被动的。虚拟环境已经解决了这个问题，分类 [68] 和今天 [106,36,31,83,47,41,11,9,72,8,98]。计算机游戏，例如 Minecraft [49],Doom [51]和 GTA5 [69]已经适应了训练和替补学习算法。虽然这些模拟器被认为对某些规划或控制任务相当有效,，但由于使用了合成的底层数据库和/或渲染管道缺陷，他们中的大多数对于感知是有限的使用并遭受过于简单的视觉世界。Gibson通过在现实世界中的目标感知方向努力来解决这些问题，途径是使用真实空间作为基础，定制神经视图合成器和内置自适应机制Goggles。

域自适应和向现实世界的转移: 随着模拟器的普及，把结果转化为现实世界的域自适应的不同的方法被提出[12,27,89,75,93,99]，例如，通过域随机化 [74,93] 或形成联合空间 [81]。我们的方法相对简单，并利用了这样的事实，在我们的情况下, 目标-源域可以获得大量的配对数据，使我们可以对前后向模型进行训练，形成一个联合空间。这使得我们在我们的环境中为了适应而内置了一种机制，最大限度地减少额外和定制适应的需要。

视图合成和基于图像的渲染: 渲染对象和场景的新视图是视觉和图形的经典问题之一 [80,84,91,23,60]。最近一些相关的方法已经在渲染管道中使用了神经网络，例如通过像编码器解码器这样的架构，直接渲染像素[32,55,92] 或预测像素的流图 [105]。当三维中的一些信息，例如深度，在输入中[42,62,20,82]是可用的，管道可以利用几何方法来变得对大型视点变化和不可想象的变形更具鲁棒性。此外，当输入有多个图可用时，相比于从纹理网格或诸如此类的完全几何方法进行渲染，智能选择机制 (通常称为基于图像的渲染) 可以帮助解决照明不一致问题，并处理更困难的非朗伯的表面 [43,64,94]。我们的方法是上述的组合，在其中我们几何上渲染目标视图的基本图像，但诉诸于神经网络来纠正伪影和填充被遮挡的区域, 并联合训练一个反向函数，将真实图像映射到合成图像。

真实世界的感知环境

Gibson包括基于视图合成的神经网络(在3.2节中描述)。3.2) 和一个物理引擎 (在3.3节中描述)。底层场景数据库和集成代理分别在3.1和3.3章节中解释。

3.1 Gibson空间数据库

Gibson的空间基础数据库包括由总面积 2112k平方米面积的1447 层组成的 572 个完整的建筑。每个空间都有一组带有全局摄像头的姿势和重建的三维网格的RGB 全景。数据的基本格式与2d-3d-语义数据集相似 [10]，但更多样化，包括 2 个数量级更多的空间。可在这里访问Gibson 数据库中每个空间的各种 2D、3D 和视频可视化。这个数据集在Gibson的资产文件中发布。

我们还在吉布森集成了2d-3d-语义数据集[10]和Matterport3D [18]可选择性使用。

图2.我们的视图综合管道的概述。输入是一组稀疏的RGB-D全景与他们的全局相机姿态。(a,b)将每个RGB-D全景投影到目标相机姿势并进行渲染。(b)视图选择决定了每个目标像素应选择哪个全景，有利于为每个区域提供更密集像素的全景。(c)像素被选择，并且本地差距被双线性采样篡改。(d)神经网络f在插值图像中填充被遮挡区域并修复伪影。

3.2 视图合成

我们的视图合成模块在输入中采用稀疏的 RGB-D 全景集，并从一个任意的新的视点呈现全景。“视图” 是一个6D相机姿态，由x，y，z 直角坐标和标注为theta;,Ф,gamma;的滚动，俯仰，偏航角度组成。我们的视图合成管道的概述可以在图2中看到。它是由一个几何点云渲染，然后由一个神经网络来修复伪影和填充的被遮挡区域，联合反向函数训练。每一步如下所述:

几何点云渲染。真实空间的扫描包括稀疏捕获的图像，导致从现场采样的光线稀疏。空间重构算法或扫描设备限制了感觉深度和三维网格的精度。反射表面或小物体往往是重建不好或整个丢失。所有这些都防止了从有特定结构的网格简单渲染成为一个视图合成的足够的方法。

我们采用了两阶段的方法，第一阶段是几何渲染点云: 给定的 RGB-D 全景图被转化为点云，每个像素由等矩形坐标投影到笛卡尔坐标。对于想要的目标视图，我们在场景数据库中选择最近的 k 视图，表示为。对于每个视图，我们将点云从坐标通过刚体变换到坐标，并将点云投影到等矩形图像上。当从目标视图渲染时，像素可能会打开并显示两者之间的间隙。因此，被遮挡的像素可能会通过间隙可见。为了过滤它们，我们渲染一个等矩形深度，正如从目标视图中看到的那样，因为我们已经全面重建了这个空间。然后，我们进行深度测试，并从目标等矩形深度对应的点处过滤出深度差距大于0.1米的像素。我们现在为每个参考全景都有稀疏的RGB 点投影在等矩形上（见图2(a)）。

来自所有参考全景的点被聚合，使用局部加权混合来创造一个全景（见密度图2(b)）。我们计算每个全景的每个空间位置 (每个像素的平均点数) 的点密度，表示为,hellip;,。对于每个位置，视图i的权重是，其中是一个超参数。因此，聚合全景中的点是从所有视图中自适应选择的，而不是盲目叠加，从而暴露光线不一致和错位伪影的问题。

最后，我们在一个等矩形的聚合点上进行双线性插值，以减少渲染像素之间空的空间（见图2(c)）。

见图6的第一行，这表明目前为止，输出仍然包括了主要的伪影，包括拼接标记，变形的对象，或大的遮挡区域。

基于神经网络的渲染。我们使用神经网络，f或“filler”，来修复伪影，并生成一个给定的几何点云渲染输出的看起来更真实的图像。我们使用了一组新的方法，有效地产生了良好的结果，包括随机身份初始化和在感知损失中添加颜色矩匹配。

结构: 我们的卷积神经网络 f 的结构和超参数详细地在补充材料中列出。我们利用扩张的卷积[102]聚合上下文信息。我们使用 1

资料编号：[5298]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码