基于深度学习的多语言OCR模型研究开题报告

2021-03-10 23:59:09

1. 研究目的与意义（文献综述）

光学字符识别（ocr）有着相当广泛的应用，也是目前研究的热点和难点。然而现今的ocr系统绝大部分都是针对单种语言，在mocr（多语言ocr）方面任然面临着极大的挑战^[1]。传统的ocr过程一般采用文本归一化^[2] 字符分割特征提取隐式马尔科夫（hmm）模型的方案以完成识别过程^[1]。

ocr起源于上个世纪，近期又由于多种因素而兴起^[3]。tesseract^[4]和ocropy系统是业界著名开源的ocr系统，能对拉丁语系进行识别，且正确率可观。然而，亚洲语系（中日韩语，阿拉伯语，印度语等）的识别一直是ocr难点所在。ray smith等人综述亚洲语系的识别困难^[5]；simon liao等人详细地给出影响中文ocr的因素所在^[6]。ray smith等人通过调整tesseract处理方案，完成中英混合文本的ocr过程；simon liao利用二维几何序列提取中文字符特征优化识别，都取得了不错的结果。但这些识别过程始终无法跳出字符分割和单一字符识别的传统ocr框架。

近些年，随着深度学习理论的完善^[7,8]，我们发现lstm网络^[9,10]在时间序列问题上取得优异表现。这意味着，采用lstm完成ocr不失为一种新的解决方案。lstm网络完成mocr相较于传统mocr方案有着很多优点。在文献[11]中，thomas breuel等人采用，不使用语言建模进行优化的lstm网络，得到比优化后的hmm模型更佳识别结果。在此基础上，thomas breuel等人使用双向lstm网络^[12] ctc在英德法三种语言上进行mocr，能将识别误差降至约1%^[13]。但lstm网络在东亚语系的mocr结果如何，怎样提升lstm网络的mocr性能，就是本文的研究所在。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

研究的基本内容包括：

①研究基于lstm递归神经网络来实现多语言的训练及识别过程。

②研究其他深度学习的方法能否改善现有的基于神经网络的多语言ocr识别结果。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

2017.2 - 2017.3.15 获取某些语言的文本数据，并产生训练集

2017.3.16 - 2017.4.15 lstm网络编码与调试

2017.4.16 - 2017.4.30 东亚语系应用，结果分析与讨论

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1] xujun peng, huaigu cao, venu govindaraju. multilingual ocr research and applications: an overview, 2013

[2] sheikh faisal rashid, faisal shafait, thomas breuel. scanning neural network for text line recognition, 2012

[3] thomas breuel. the ocropus open source ocr system, 2008

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码