基于深度卷积神经网络的机器人抓取检测外文翻译资料

2023-08-28 05:08

英语原文共 8 页，剩余内容已隐藏，支付完成后下载完整资料

基于深度卷积神经网络的机器人抓取检测

摘要：通过深度学习明显的提高了计算机视觉和自然语言处理能力。虽然在使用深度学习的机器人技术方面取得了一些成功，但尚未被广泛采用。在本文中，我们提出了一种新颖的机器人抓握检测系统，该系统使用场景的RGB-D图像预测平行板机器人抓取器对于新物体的最佳抓取姿势。所提出的模型使用深度卷积神经网络从场景中提取特征，然后使用浅卷积神经网络来预测感兴趣对象的抓握配置。我们的多模态模型在标准Cornell Grasp数据集上的准确率达到89.21％，并以实时速度运行。这重新定义了机器人抓握检测的最新技术。

一. 介绍

机器人抓握远远达不到人类的肢体行为，并且是机器人领域中尚未解决的问题。当人类看到新物时，他们会本能地知道如何抓住它们。关于机器人抓取和操纵已经做了很多工作，但实时抓握检测和规划的问题仍然是一个挑战。即使是当前最先进的抓握检测技术也未能实时检测到潜在的抓握。机器人抓取问题可以分为三个连续阶段：抓握检测，轨迹规划和执行。抓取检测是一种视觉识别问题，其中机器人使用其传感器来检测其环境中的可抓取物体。用于感知机器人环境的传感器通常是三维视觉系统或RGB-D摄像机。关键任务是根据传感器信息预测潜在的抓取并将像素值映射到真实世界坐标。这是执行掌握的关键步骤，因为后续步骤取决于在该步骤中计算的坐标。然后将计算出的真实世界坐标转换为机器人手臂末端工具（EOAT）的位置和方向。接着计划机器人臂的最佳轨迹以到达目标抓握位置。随后，使用开环或闭环控制器执行机器人臂的计划轨迹。与开环控制器相比，闭环控制器在整个抓取任务期间接收来自视觉系统的连续反馈。处理反馈所需的额外处理在计算上是十分复杂的并且可以极大地影响任务的速度。

在本文中，我们针对从场景的RGB-D图像中检测“良好掌握”的问题。图1显示五维抓握表示，可以很好地抓住墨粉盒。

图1.潜在良好地抓住墨粉盒的示例抓握矩形。这是五维抓握表示，其中绿线表示夹持器的平行板，蓝线对应于在执行抓握之前夹持器的平行板之间的距离，（x，y）是对应于抓握矩形的中心的坐标q是抓握矩形相对于水平轴的方向。

该五维给出了在物体上执行抓握之前平行板夹持器的位置和方向，它是Jiang et al. Lenz et al.所研究介绍的七维抓握表示的简化。这表明，一个好的五维抓握表示可以投射回七维抓握表示，可以由机器人用来进行抓握。除了低计算成本之外，尺寸的减小使我们能够使用RGB-D图像来检测抓取。在这项工作中，我们使用五维抓握表示来预测抓握姿势。

我们介绍了一种使用五维表示检测平行板夹持器的良好机器人抓握的新方法。我们的方法使用两个并行运行的50层深度卷积残差神经网络从RGB-D图像中提取特征，其中一个网络分析RGB分量，另一个网络分析深度信道。然后合并这些网络的输出，并将其馈送到另一个预测抓握配置的卷积网络。我们将这种方法与文献中的其他方法进行比较，以及仅使用RGB分量的模型的单模态变化。我们的实验是在标准的Cornell Grasp数据集上完成的。来自数据集的示例图像显示在图2中。我们的实验表明，所提出的架构在精度和速度方面都优于当前最先进的方法。

图2.来自Cornell Grasp Dataset的样本图像

二．背景

深度学习在计算机视觉和自然语言处理中的多个问题上取得了显着进步。这些结果激发了许多机器人研究人员探索深度学习的应用，以解决机器人技术中的一些具有挑战性的问题。例如，机器人定位正在从使用手工设计的特征转向深度学习特征，深层强化学习被用于机器人手臂控制的端到端训练，多视图物体识别通过深度学习相机控制实现了最先进的性能，强化学习已被用于学习双臂操作任务，并且通过使用深度学习来估计自动驾驶已被解决驾驶的能力。

深度学习的一个主要挑战是它需要大量的训练数据。但是，大多数机器人应用程序无法使用带有手动标记图像的大型数据集。在计算机视觉中，传输学习技术被用于在一些大型数据集上预训练深度卷积神经网络，例如ImageNet，其包含120万个具有1000个类别的图像，然后在目标数据集上训练网络 .这些预训练模型既可以用作初始化，也可以用作感兴趣任务的固定特征提取器。

用于二维机器人抓握预测的最常用方法是滑动窗口检测框架。在该框架中，分类器用于预测输入图像的小块是否具有对对象的良好潜在掌握。分类器应用于图像上的多个面片，获得高分的面片被认为是良好的潜在掌握。Lenz et al.将这种技术用于卷积神经网络作为分类器，精度达到75％。他们工作的一个主要缺点是它以每帧13.5秒的速度运行，这对于机器人找到在实时应用中移动其EOAT的位置来说非常慢。在此之中，通过立即将整个图像传递到网络来加速这种方法，而不是传递几个补丁。

使用三维模拟进行了大量的工作以找到良好的掌握。这些技术功能强大，但大多数都依赖于目标对象的已知3-D模型来计算适当的把握。但是，通用机器人应该能够在没有对象的3-D模型的情况下掌握不熟悉的对象。Jincheng et al.表明深度学习具有三维物体识别和姿态估计的潜力，但他们的实验仅使用了五个对象并且他们的算法在计算上是复杂的。Mahler et al.最近的研究是使用基于云的机器人方法来显着减少强大的抓取计划所需的样本数量。约翰斯等人通过使用物理模拟和深度图像模拟三维物体网格来生成他们的训练数据，以学习抓握分数，这对于抓手姿势不确定性更加稳健。

Jeremy等人提出的抓点检测技术。具有92％的非常高的精度，但它只适用于布巾，不能用作通用的抓握检测技术。Gualtieri等人介绍了另一种抓握姿势检测技术。[29]用于从密集群集中删除对象。该技术仅使用研究机器人在一小组物体上进行评估。

我们采用不同的方法，而不是使用AlexNet进行特征提取，我们使用当前最先进的深度卷积神经网络，称为ResNet 。我们还介绍了一种多模式模型，该模型从RGB和深度图像中提取特征以预测抓握配置。

三．问题的表述

机器人抓握检测问题可以被表达为找到对象的给定图像I的成功抓握配置g。五维抓握配置g表示为：

g = f (x; y; h; w; q )

(1)

其中（x; y）对应于抓握矩形的中心，h是平行板的高度，w是平行板之间的最大距离，q是抓握矩形相对于水平轴的方向。对于特定的机器人EOAT，h和w通常是固定的。表示的例子如图1所示。

我们通过对Lenz等人所研究的刨床掌握。表明五维抓握配置可以投射回七维配置，以便在真实机器人上执行。为了解决这个抓握检测问题，我们采取了不同的方法，在章节四中加以解释.

四．方法

深度卷积神经网络（DCNN）的性能优于先前用于解决计算机视觉中检测和分类问题的最先进技术。在本文中，我们使用DCNN从图像中检测目标对象并预测良好的抓取配置。我们提出了单步预测技术。这些方法在输入图像的小块上多次运行一个简单的分类器，但这很慢并且计算成本很高。相反，我们

图3。 ResNet中的残差块示例。

将整个图像直接馈入DCNN，以对对象的完整RGB-D图像进行抓取预测。该解决方案更简单，开销更少。

从理论上讲，DCNN应该具有更好的性能和更深的深度，因为它提供了更高的代表性能力。但是，我们目前的优化方法，随机梯度体面（SGD）并不是理想的优化器。在实验中，研究人员发现，增加的深度会增加训练误差，这与训练误差不一致[31]。增加的训练误差表明超深度网络很难优化。这意味着通过使用SGD的端到端训练在卷积神经网络中很难获得身份图。因此，我们使用ResNet [31]中的残差层，它使用给定的函数重新绘制层之间的映射函数当量（2）.

与之前的作品类似，我们假设输入图像仅包含一个可抓取对象，并且必须为该对象预测单个抓取。这种假设的优点是我们可以查看完整的图像并进行全局掌握预测。在实验条件之外，这种假设可能是不可能的，我们必须提出一个必须首先将图像划分为区域的模型，因此每个区域只包含一个对象。

A.架构

与之前的方法相比，我们的模型更加深入。我们使用ResNet-50（一种50层深度残差模型）来解决这种抓握检测问题，而不是使用八层AlexNet。ResNet

架构使用简单的残差学习概念来克服学习身份映射的挑战。标准的前馈CNN被修改为包含一次绕过几层的跳过连接。这些跳过连接中的每一个都产生残余块，并且卷积层预测添加到块输入的残差。关键思想是绕过k^th 残差块中的卷积层和非线性激活层，并且仅允许跳过连接中的输入特征的标识。图3 示出了具有跳过连接的残余块的示例。残差块定义为：

H_k = F(H_k ₁; W_k) H_k ₁

(2)

其中，H_k ₁ 是残差块的输入，H_k 是块的输出，W_k 是为函数F的映射学习的权重。我们鼓励读者看到[31]有关ResNet架构的更多详细信息。

我们介绍了两种不同的机器人抓握预测架构：单模态抓取预测器和多模态抓取预测器。单模态抓取预测器是2D抓取预测器，其仅使用来自输入图像的单个模态（例如，RGB）信息来预测抓握配置，其中多模态抓握预测器是3-D抓握预测器，使用多模态（例如，RGB和深度）信息。在接下来的两个小节中，我们将详细讨论这两个体系结构。

B.单模式抓取预测器

大规模图像分类数据集仅具有RGB图像。因此，我们可以仅使用3通道预训深我们的深度卷积神经网络。我们引入了单峰抓取预测模型，该模型被设计为仅使用原始图像的三个通道（RGB或RGD）来检测抓握。图4 显示了我们单峰抓取预测器的完整架构。在ImageNet上预先训练的ResNet-50模型用于从图像的RGB通道中提取特征。对于基线模型，我们使用线性SVM作为分类器，使用从ResNet-50的最后一个隐藏层提取的特征来预测对象的抓握配置。在我们的单模式抓取预测器中，ResNet-50的最后一个完全连接层被两个完全连接的层替换，其中整流线性单元（ReLU）作为激活功能。在第一个完全连接的层之后还添加了一个丢失层，以减少过度拟合。我们使用SGD来优化我们的训练损失和均方误差（MSE）作为我们的损失函数。

3通道图像被馈送到单模式抓取预测器，其使用残余卷积层从输入图像中提取特征。最后一个完全连接的层是输出层，它预测图像中对象的抓握配置。在训练期间，ResNet-50中的卷积层的权重保持固定，并且仅调整最后两个完全连接的层的权重。使用Xavier权重初始化初始化最后两层的权重。

图4.我们的单模式掌握预测器的完整架构。

C.多模态抓取预测器

我们还介绍了一种多模态抓取预测器，它受到Schwarz等人引入的RGB-D物体识别方法的启发。多模态抓取预测器使用来自原始图像的多模态（RGB-D）信息来预测抓握配置。原始RGB-D图像被转换为两个图像。第一个是简单的RGB图像，另一个是转换为3通道图像的深度图像。这种3通道转换深度类似于灰度到RGB转换。然后将这两个3通道图像作为输入提供给两个独立的预训练ResNet-50型号。ResNet-50层用作两个图像的特征提取器。与单模式抓取预测器类似，从ResNet-50网络的倒数第二层提取特征。然后使用L2归一化对提取的特征进行归一化。规范化的特征连接在一起并输入

具有三个完全连接层的浅卷积神经网络。完全连接的层使用ReLU激活功能。我们在浅网络的第一和第二完全连接层之后添加了一个丢失层，以减少过度拟合。与uni-modal模型类似，我们使用SGD作为优化器，MSE作为损失函数。图5 显示了我们的多模态抓取预测器的完整架构。

通过并行使用两个DCNN，该模型能够从RGB和深度图像中提取特征。因此，使模型能够从RGB-D数据集中学习多模态特征。使用预先训练的ResNet-50模型初始化两个DCNN的权重，并使用Xavier权重初始化初始化浅网络的权重。在训练期间调整重量。

作为一个简单的基线，我们还将线性SVM分类器应用于L2归一化RGB DCNN和深度DCNN特征，以预测图像中对象的抓握配置。

五．实验

A.数据集

为了将我们的方法与其他方法进行比较，我们在标准的Cornell Grasp数据集上测试我们的架构。数据集可在以下位置http://pr.cs.cornell.edu/ grasping/rect_data/data.php获得。该数据集包含240个不同对象的885个图像。每个图像都有多个标记为成功（正）或失败（负）的抓取矩形，专门用于平行板夹持器。总共有8019个标记的抓握，5110个阳性和2909个阴性抓握。图6 使用此数据集的矩形度量显示基础事实。

与之前的工作类似，我们对所有实验

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[609467]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码