登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 软件工程 > 正文

基于深度学习的基础教育领域分词方法毕业论文

 2021-05-16 12:05  

摘 要

中文分词任务是中文自然语言处理(NLP)领域的基础,准确度高的分词方法对于信息检索、情感分析等任务来说有着举足轻重的影响。国内基础教育领域资源丰富,而且蕴含了丰富的知识,在基础教育领域上的关系抽取和知识库构建等工作对教育和科研来说有着重要意义,同时也对分词提出了更高的要求,而使用深度学习的方法,可以利用其大规模数据的处理能力和自动学习的能力,通过字向量的输入方式,构建一个适用于基础教育领域的分词系统,以满足领域分词的高标准需求。

本文根据深度学习的思想,提出了适用于基础教育领域的分词方法。本文主要包括如下几个方面:

(1) 构建基础教育领域(地理)语料库、数据集。本文利用互联网结构化的知识信息、地理教材和百科全书为基础构建了语料库,并且使用回标方法等对语料库进行处理,构建了训练数据集,同时收集了用于测试普通领域分词效果的语料库和标准数据集;

(2) 训练领域字向量,构建神经网络模型。字向量训练的基础是不同的语料库和训练集,使用word2vec工具进行训练,然后构建了适用于中文分词任务的卷积神经网络模型(CNN)和长短期神经网络模型(LSTM),通过实验对比分析了不同网络的特点;

(3) 通过模型改进、参数调整等方法优化模型效果。实验证明优化后的中文分词任务神经网络模型,达到了更高的分词准确度,在基础教育领域(地理)中使用本文的分词方法进行分词,同样达到了较高的分词准确度。

本文经过实验表明,使用深度神经网络进行基础教育领域分词是自动、高效且完全可行的,对于特定领域的分词系统构建具有指导意义。

关键词:深度神经网络;中文分词;字向量

Abstract

Chinese word segmentation task is the base part of the Neural Language Processing(NLP) area, and its accuracy plays an important role in the tasks of information search and sentiment analysis and so on. China is rich in the source of the knowledgeable basic education area, and it is significance for education and research to extraction the relation or build the data base, which sets higher requirements on the accuracy of word segmentation, but using the abilities of deep learning, which are the ability of big data processing and the ability of automatic learning, by the well trained character vectors can build a Chinese word segmentation system suitable for basic education area to satisfy the demand in this area.

This thesis is based on the methods of deep learning and proposed a segmentation method of basic education area. This thesis mainly includes the following aspects:

  1. Constructed corpus databases and training sets of basic education area(geography). By using the structured knowledge on the internet, the text book of geography and encyclopedia, built the corpus database, and used it to labeled the corpus into training set and testing set scheme; also collected a standard training set to test the performance of segmentation model;
  2. Trained the character vectors and built models of deep neural network. The character vectors are trained by the different training set, then built a segmentation-task-applicable model with convolutional neural network(CNN) and long short term memory model(LSTM), and contrast the performance of different network;
  3. By the mean of modifying the architecture and parameters to optimized the model. The experiment showed that the accuracy has been improved to a high level, then test the model on geography area, also achieved an remarkable word segmentation accuracy.

The experiment result shows that, using deep neural network to do word segmentation task on basic education area is mostly automatically, efficiently and practicably, the result id of certain guiding significance for building area-specific word segmentation system.

Key Words: deep neural network;Chinese word segmentation;character vector

目 录

摘 要 I

目 录 II

第一章 绪论 1

1.1 研究背景与意义 1

1.2 国内外研究现状 1

1.2.1 分词技术 2

1.2.2 深度学习 4

1.3 研究内容 5

1.4 研究方案 6

1.5 论文结构 6

第二章 基于深度学习的中文分词技术 8

2.1 基础教育领域的分词现状 8

2.2 适于序列标注方法的网络语料库构建 9

2.3 字向量训练 13

2.4 本章小结 15

第三章 基于深度学习的基础教育领域分词系统构建 16

3.1 适于中文分词的深度神经网络模型 16

3.1.1 卷积神经网络模型构建 16

3.1.2 递归神经网络模型构建 17

3.2 深度神经网络实验对比 19

3.2.1 实验数据集 19

3.2.2 实验环境 20

3.2.3 评测标准 20

3.2.4 实验结果对比分析 21

3.3 实验改进 22

3.3.1 模型调整 22

3.3.2 实验结果对比分析 24

3.4 本章小结 26

第四章 总结与展望 27

4.1 总结 27

4.2 展望 27

参考文献 28

致 谢 30

第一章 绪论

1.1 研究背景与意义

词是“最小的能独立运用的语言单位”,而对于计算机来说,如果只读入原文本,在不知道词语的边界的状况下,是基本无法理解语义信息的。因此,中文分词是自然语言处理的一个关键的基础技术,是其他中文应用,例如,命名实体识别、句法分析、语义分析、机器翻译、信息检索等得前期文本处理关键环节。

以“文综”为代表的基础教育资源,蕴含了丰富的知识。对于汉语基础教育资源,具有很多领域概念,其出现的频次较低,利用传统的方法容易造成训练不足,也非常有可能过拟合。因此研究面向中文,特别是具有明显汉语特点的基础教育资源的分词技术,对于服务全球最大语言人群,具有重要意义。

深度学习的概念由Hinton等人提出后[17],Bengio等人的神经概率语言模型[3]也变得深层,形成了多层神经网络,这也就是深度学习的核心内容,深度神经网络训练过程中,一层一层得训练,前一层与后一层相连接,输出作为输入。神经网络语言模型的形成,对自然语言处理领域很多任务都具有很好的推动效果,如词性标注、语义理解等等。

中文分词的任务就是要切分汉语据字序列,转换为词语序列,使用词来表示句子的意思。中文分词技术现在现在已经进步很多,准确度也比较高,尤其是使用了统计方法加上机器学习方法后,分词效果提升显著[1],也足以证明机器学习方法的可行性。

1.2 国内外研究现状

条件随机场(CRF)模型由Lafferty提出[2],这个理论在序列标记、分析、数据分割等自然语言处理任务中效果显著,对于汉语自然语言处理来说将其应用于中文分词任务,和一些中文分词难点任务如人名识别、歧义消除来说,CRF模型表现良好。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图