基于深度卷积神经网络*的交通标志识别外文翻译资料

**基于深度卷积神经网络*的交通标志识别外文翻译资料**

2022-08-22 15:20:41

英语原文共 5 页，剩余内容已隐藏，支付完成后下载完整资料

光电字母 2017年11月1日第13卷第6期

基于深度卷积神经网络*的交通标志识别

尹世豪，邓计才，张大伟和杜靖远

郑州大学信息工程学院，郑州450001 中国

（2017年9月12日收到）

copy;天津工业大学和Springer-Verlag GmbH德国2017

交通标志识别（TSR）是自动驾驶系统的重要组成部分。为TSR系统设计高性能分类器是一项相当艰巨的任务。本文提出了一种基于深度卷积神经网络的TSR系统新方法。为了增强网络的表达，设计了一种结合了网络内网络和剩余连接的新颖结构（以下称为块层）。我们的网络有10个带参数的层（将块层视为单层）：前七个是交替的卷积层和块层，其余三个是完全连接的层。我们在德国交通标志识别基准（GTSRB）数据集上训练TSR网络。为了减少过度拟合，我们在训练图像上执行数据增强，并采用一种称为“辍学”的正则化方法。我们在网络中采用的激活函数采用缩放的指数线性单位（SELU），可以诱导自归一化性质。为了加快训练速度，我们使用了高效的GPU来加速卷积运算。在GTSRB的测试数据集上，我们达到了99.67％的准确率，超过了最新的结果。文档代码：文章ID：1673-1905（2017）06-0476-5

DOI https://doi.org/10.1007/s11801-017-7209-0

近年来，随着驾驶员辅助系统和自动驾驶汽车的飞速发展，交通标志识别（TSR）引起了许多研究人员的关注。交通标志提供了许多有关交通环境的有用信息，例如速度限制，方向，危险警告等。及时识别交通标志使驾驶安全便捷。但是，所有输入到TSR系统中的交通标志图像都是从真实环境中拍摄的，并且它们具有各种照明条件，视点，部分遮挡和分辨率。因此，克服这些困难以确保模型的鲁棒性很重要。

在过去的十年中，已经提出了许多TSR系统模型[1-3]。总的来说，TSR过程可分为检测和识别两个阶段，本文重点介绍识别阶段。Lim等人[4]使用颜色/形状和象形图信息提取特征，然后将其输入到径向基函数神经网络（RBFNN）进行交通标志分类。Madani和Yusof[5]运用了预先训练的多类支持向量机（MCSVM）来对交通标志进行分类，而不是上述的RBFNN。最近，由于其出色的分类能力，卷积神经网络（CNN）在计算机视觉领域很流行。 Lau等人[6]提出了一种基于CNN的TSR方法，在马来西亚交通标志数据库上取得了很好的准确性。为了提高识别交通标志的准确性，我们提出了一种深层的CNN架构，并将其用于德国交通标志识别基准（GTSRB）数据集。

整流线性单位（ReLU）是近年来深层CNN所使用的最流行的激活功能。具有ReLU的深层CNN的训练速度快于具有双曲正切或S形单位^[7]的同类神经网络。不幸的是，ReLU单元在训练和“死亡”期间可能很脆弱。提出了泄漏的ReLU来解决“垂死的ReLU”问题^[8]。Xu等人^[9]证明泄漏的ReLU在CNN中的表现要好于ReLU。为了训练深层的CNN，通常使用批量归一化或层归一化来归一化网络中每个层的输出。我们在网络中采用的激活函数是Klambauer等人^[10]提出的缩放指数线性单位（SELU）。通过网络传播时，SELU收敛到零均值和单位方差。在我们的网络中，我们发现SELU的准确性比GTSRB数据集上的ReLU（约0.95％）和泄漏的ReLU（约0.4％）更高。SELU激活函数由下给出：

其中lambda;= 1.050 7和alpha;= 1.673 26。

在传统的CNN中，层通常由堆叠的卷积层（可选的是归一化层和池化层）和几个完全连接的层（例如LeNet-5^[11]，AlexNet^[12]和VGG^[13]）构成。Lin等人^[14]提出了一种新颖的深度神经网络，称为网络中的网络（NIN），以提高卷积神经网络的表示能力。受NIN的启发，Szegedy等人^[15]设计了代号为“ Inception”的深度卷积神经网络体系结构，并获得了ImageNet大规模视觉识别挑战赛（ILSVRC）2014的桂冠。

剩余网络最早是由He等人在参考文献[16]中提出的，他们在其中提供了经验证据，证明了向网络添加剩余连接的优势。Szegedy等人^[17]在ILSVRC 2012分类任务中将Inception体系结构与残差连接相结合，比没有残差连接的精度更高。

为了通过使用几种大小的卷积滤波器来提取不同级别的特征，并受益于添加残差连接，我们设计了一种名为块层的新颖架构，如图1所示。为了简化表示，我们在图中省略了激活功能。块层中的所有卷积层和最大合并层具有相同的步幅1和“相同填充”的相同填充方案，以确保其输出网格与输入的大小匹配。换句话说，块层的输出与其输入的大小相同。这种机制使块层可以添加到传统普通CNN中的任何位置。在块层中，使用昂贵的5times;5和3times;3卷积之前的1times;1卷积作为降维模型来限制我们网络的大小。

图1在我们的TSR网络中使用的块层

块层的输出H（x）是其输入的函数x.块层的堆叠的基础映射表示为F（x）。由于增加了剩余连接，因此块层的输出可以描述如下：

H（x）= F（x） x。 (2)

现在，我们准备描述交通标志识别模型的总体架构。简明的表示总结在图2中。为了简单起见，上述的阻挡层被表示为单层。该网络包含10个权重层：前七个是交替的卷积层和块层，其余三个是完全连接的层。最后一个完全连接层的输出被馈送到43路softmax，该信号在43类交通标志标签上产生分布。最大池化层位于C3，C5和C7层之后。池化网格为3，步幅设置为2。换句话说，我们在网络中采用了重叠池化。

图2简单说明了我们用于TSR的深度卷积神经网络的架构

我们网络的输入是大小为48times;48times;3的RGB图像。输入图像的预处理是对其进行线性缩放，以实现零均值和单位范数。如图2所示，层B2，B4和B6是连接到先前对应的卷积层（可以被合并）的块层。C1层使用步幅为7times;7times;3的64个内核过滤输入图像1个像素。层C3具有128个大小为5times;5times;64的内核，该内核连接到先前的块层。层C5具有256个3times;3times;128大小的内核，而层C7具有256个3times;3times;256大小的内核。前两个完全连接的层（FC8和FC9）每个都有512个神经元。最后一个完全连接层（FC10）具有43个神经元。我们的网络的详细示意图也如图3所示。

图3我们的TSR网络的详细表示

GTSRB数据集^[18]具有43幅图像中的51 893张图像（39209张训练图像和12 630张测试图像）类如图4所示。交通标志图像的大小在15times;15和222times;193之间变化。图像在交通标志周围包含10％的边距（至少5个像素）。所有图像均取自具有不同光照和天气条件的真实环境。由于分辨率低，照明差，部分遮挡，运动模糊等原因，一些交通标志图像不容易识别。图5显示了一些示例图像，这些图像是在污染条件下从GTSRB数据集中选择的。

图4 GTSRB数据集中的43个交通标志类别

图5从GTSRB数据集中选取的受污染条件下的示例，例如低分辨率，不良照明，部分遮挡和运动模糊

在GTSRB的训练集中，每个类别的图像数量在210和2 250之间变化。为了避免不平衡数据对实验结果的影响，我们将每个类别的图像数量扩展到2 250。包含少于2 250张图像的类别，我们随机选择这些类别中的一些图像，然后调整亮度，对比度，旋转度等。这样，训练数据的数量可以增加到96750。

为了减少过度拟合，我们对训练数据集进行了数据扩充。由于GTSRB数据集中的图像具有不同的大小，因此我们提取了训练图像的兴趣区域，并将它们首先缩放为52times;52的大小。对于缩放的图像，我们从中随机提取48times;48个色块。这将训练集的大小增加了16倍。扩大训练集的另一种方法是随机调整图像的亮度和对比度。还考虑到GTSRB数据集的图像是从现实世界中收集的，其中有些光照条件很差，我们只能通过在短时间内随机选择的因子来调整亮度和对比度。

我们使用Google Inc.开发的TensorFlow^[19]机器学习系统来训练我们的网络。我们的训练使用了0.000 1个学习速率（每30个周期将学习速率降低10％）的Adam^[20]优化器。批大小设置为128。我们使用权重衰减（L2惩罚乘数设置为0.000 5）和前两个完全连接的层的dropout^[21]正则化（dropout比率为0.5）来减少过度拟合。我们使用参考文献[22]的随机初始化过程来初始化网络中的权重。偏差在我们的网络中初始化为零。我们通过平衡训练集对网络进行了大约100个周期的训练，在NVIDIA Tesla M60 8G GPU上大约需要17小时。实验的细节如图6所示。

GTX 1060 6G GPU.在使用GPU的情况下，我们的网络在识别过程中获得了很高的计算效率。

图7 GTSRB数据集与训练时期的测试准确性

表1 GTSRB测试仪结果比较

球队	方法	准确性（％）
我们的	深度CNN	99.67
伊迪西亚	CNN委员会	99.46
即时电视	人类（最佳个人）	99.22
即时电视	人（平均）	98.84
塞尔曼尼特	多尺度CNN	98.31
or	随机森林	96.14

表2 我们在不同设备上的网络速度

设备速度英伟达GTX 1060 6G 3 ms /帧

Nvidia Tesla M60 8G（单核）

4毫秒/帧

英伟达GTX 960 2G 8毫秒/帧英特尔i7-6700K 45 ms /帧

图6在GTSRB数据集上的训练：（a）训练损失与训练时期的比较；（b）训练准确性与训练时期

在测试时，我们先提取交通标志的区域，然后将其缩放为48times;48像素，然后将其输入到经过训练的网络中。测试准确度的详细信息如图7所示。我们网络的GTSRB的最终准确性为99.67％。表1给出了与一些提交给GTSRB的拟议算法和人工性能的比较。表2总结了测试阶段我们网络在CPU和GPU设置上的速度。实验结果表明，GPU比CPU快几十倍。我们的网络每秒可以在NVIDIA上处理300幅图像

测试阶段一些真实的正误假例如图8所示。对于在轻度污染条件下的图像（图8（a）），我们训练有素的网络可以做出真实的预测。但是对于某些在极端污染条件下的图像（图8（b）），我们的网络无法正常运行。

(a)

(b)

图8测试阶段的一些示例：（a）真实的示例；（b）错误的否定例子

本文提出了一种用于交通标志识别的深层CNN。该网络包含三个块层，但单卷积层和完全连接层除外。我们网络中的块层可以提取不同级别的功能，并且可以灵活地添加到传统的CNN中。在GTSRB的测试数据集上，我们达到了99.67％的准确性。这个结果超出了人类的水平。在未来的工作中，我们打算提高网络的准确性，并在预测阶段加快计算速度。在这方面，我们计划考虑以下问题：调整网络中的层数，采用更多的数据扩充方法，

并减少参数数量。

参考文献

略

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[239635]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码