基于全卷积网络的文档图像二值化算法研究文献综述

2020-04-28 20:17:56

1．目的及意义

图像二值化（Image Binarization）就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中，二值图像占有非常重要的地位。图像二值化的目的是使图像中数据量大为减少，最大限度的将图象中感兴趣的部分保留下来，从而能凸显出目标的轮廓。在很多情况下，也是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。这个看似简单的问题，在过去的四十年里受到国内外学者的广泛关注，产生了数以百计的方法，但没有一个现有方法对各种各样的图像都能得到令人满意的结果。在这些庞大的分类方法中，较为传统的基于直方图的二值算法占绝大多数，这类方法依赖于阈值的选取，所有灰度大于或等于阈值的像素被判定为属于特定物体，其灰度值为255表示，否则这些像素点被排除在物体区域以外，灰度值为0，表示背景或者例外的物体区域。大致可以分为这样几类方法：基于点的全局阈值法、基于区域的全局阈值方法、局部阈值方法和多阈值法。

近几年，图像二值化仍然是一个值得深入研究的问题，尤其是对于复杂的图像噪音，例如复杂的污渍、褪色的墨水、页面渗墨、甚至不均匀的光照。这一点从国际文档分析与识别会议(ICDAR)举办的文档图像二值化竞赛（DIBCO）的流行程度中可见一斑。同时，也涌现出了许多新的算法，这些算法不基于直方图，而是采用了SVM、随机森林、聚类、神经网络，甚至深度学习。

目前基于直方图的二值化算法已经比较成熟，但是对于一些复杂的噪音效果仍然不理想。因此，许多基于分类的二值化方法被纷纷提出。现在比较流行的研究方向之一是利用卷积神经网络。思路是将图像二值化看作是一个像素级的分类问题，使用深度卷积神经网络（例如FCN、DSN），将每一个像素标记为背景/前景。卷积神经网络相比基于直方图的阈值法有许多优点：1.可以接受任意尺寸的输入，通过融合不同比例的下采样特征，取得更好的训练效果 2.传统的方法缺点是在计算阈值时忽略了形状，即这个阈值对于形状的变换是不变的。相比之下，卷积神经网络可以从训练数据中发掘出像素的空间排列特征。

{title}

2. 研究的基本内容与方案

{title}

本毕业设计研究的基本内容是如何通过机器学习的方法对含噪音的文档图像进行二值化，从而凸显感兴趣的目标，减少数据量，方便后序的图像处理。本次毕业设计的具体目标是，对于折痕、脚印、褪色的墨水、页面渗墨、不均匀的光照等噪音进行降噪，至少应该达到肉眼能分辨的程度，争取提高模型的泛化能力和准确率。

在具体毕业设计进行过程中，我打算按照以下流程进行相关知识的学习和毕业设计的实施。

（1）Python编程能力的强化：如今Python已经成为机器学习方向的主流语言，具有丰富的机器学习库和资源，所以提升自己的Python编程能力是很有必要的。

（2）Keras的学习：Keras是一个高层神经网络API。Keras十分简洁，具有良好的模块性和可扩展性，适合快速的搭建自己的模型。

（3）经典的深度学习模型：学习目前常用的深度学习模型，并分析各种模型的适用场景和优缺点。

（4）数据增强：在数据集有限的情况下，容易发生过拟合情况，我们可以通过数据增强来获取更丰富的训练数据，数据增强的方法有多种，究竟哪种效果好，还需要具体问题具体分析。

（5）图像预处理：在训练之前，对图像进行预处理是十分重要的。包括运用形态学操作（腐蚀、膨胀、开操作、闭操作）对图像进行增强，边缘检测，区域划分等技术。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码