基于TensorFlow的验证码识别方法研究毕业论文

2021-04-05 07:04

摘要

验证码是日常生活中广泛使用的一项技术，其核心是利用“图灵测试”进行人与计算机的辨别。本文利用深度学习中的卷积神经网络作为技术手段，采用tensorflow搭建神经网络模型，直接采用端到端的方法进行识别，降低验证码识别的难度，利用卷积神经网络模型进行训练。具体的工作内容和成果如下：

（1）对常用的验证码进行调查，确定本文使用的验证码数据集为字符型验证码，使用python中的captcha库自动生成，字符包括数字0-9和小写字母a-z。

（2）本文对验证码识别进行“端到端”的建模分析，在此模型中使用了深度卷积网络、残差单元、多核卷积、全连接等技术，在5000次迭代后，达到了85%的准确率。

（3）研究了学习率与dropout对模型的影响，并最终确定学习率为0.0001、随机失活（dropout）为0.5时，能够在较短的时间内达到80%以上的准确率，且能够有效防止过拟合。

关键词：卷积神经网络 tensorflow 验证码

REARCH OF METHODS IN CAPTCHA RECOGNITION BASED ON TENSORFLOW

ABSTRACT

CAPTCHA is a technology which is widely applied in daily life. The core of CAPTCHA is to through Turing test to distinguish human from computer. In this paper, the convolution neural network in deep learning is adopted as a technical method, the neural network model is built by tensorflow, and end-to-end method is adpoted to identify the CAPTCHA directly, which reduces the difficulty of identification, while convolution neural network model is utilized to train. Specific work contents and results are as follows:

(1) The common CAPTCHA is investigated, confirm that the data set of CAPTCHA tested in this paper is character-type CAPTCHA , and make the captcha Library in Python to generate automatically, characters including numbers 0-9 and lowercase letters A-Z.

(2) In this paper, end-to-end CAPTCHA recognition is modeled and analyzed. In model, deep convolution network, residual unit, multi-core convolution, full connection and other technologies are merged. After 5000 iterations, 85.867% accuracy is achieved.

(3) The influence of learning rate and dropout on the model is studied. When learning rate is 0.0001 and dorpout is 0.5, the accuracy can reach more than 80% in a short time, and the over-fitting can be effectively prevented.

Key words: CNN Tensorflow CAPTCHA

1.绪论 1

1.1研究背景与意义 1

1.2验证码研究现状 1

1.2.1验证码的现状与发展趋势 1

1.2.2国内外研究现状 3

1.3本文主要研究内容 4

2.验证码识别的相关理论 5

2.1预处理相关工作 5

2.2传统验证码识别理论 6

2.3卷积神经网络基本理论 6

2.3.1神经网络 7

2.3.2卷积 7

2.3.3池化 8

2.3.3全连接 8

3.验证码识别网络模型设计 10

3.1基本模型 10

3.2深度模型 10

3.3残差单元 11

3.4 inception层 13

3.5全局平均池化 14

4.验证与结果分析 16

4.1平台与数据集介绍 16

4.2模型效果 16

4.3过拟合 18

4.4学习率对训练过程的影响 20

5.总结与展望 22

5.1总结 22

5.2展望 22

参考文献 24

致谢 25

绪论
1研究背景与意义

验证码（captcha）是现在广泛使用的身份验证技术，其验证的对象是互联网用户或者远程操作用户，主要用于区别对象是人类还是计算机。一般来说，验证码的性能要求为：人类用户的成功识别率高于90%，而计算机自动程序的通过率低于0.1%。根据以上要求，验证码不能设计的过于复杂，如果验证码的辨识复杂度超过正常人类的辨识能力，这个验证码的存在就失去了意义，因为它将阻止任何类型的访问，包括正常情况与非正常情况。

安全性是互联网研究中的一个重要议题，诸多学者都对此进行了深入的研究，并以此构建了互联网的安全体系，其中包括防火墙、病毒检测等方式。但是以上的防护手段并不适合于单次访问这一小流量的服务，而验证码由于成本低廉、性能优异、构造简单、能够大批量快速生成等优点，非常适合作为一种网络安全防护手段，从提出伊始就得到广泛应用。现在，可以在很多地方看到验证码的应用。大型的管理注册系统，例如学校的教务管理系统、招聘网站的注册系统等。安全性要求较高的系统，例如金融管理系统、银行的用户系统等。对公平性要求较高的系统，例如铁路订票系统、服务预约系统等。因而验证码是维护互联网安全的重要组成部分。

但是，目前为止并没有一个完美的安全体系，验证码也不例外。验证码必然存在着一些漏洞和缺陷，但是由于人类的认知习惯，很少有人能够发现并总结出这些漏洞和缺陷中的理论和规律，所以对于验证码的性能，现在普遍缺乏标准，在这方面Elie Bursztein^[1]等人做出了开创性的贡献，他们设计了工具Decaptcha，并利用这个工具分析评估了15种主流的验证码，为不同的验证码标定了安全等级。从目前来看，分析评估验证码的最佳手段恰恰是从验证码识别入手。

1.2验证码研究现状

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码