支持基于新词发现社科数据的文本分词器设计研究与应用实现开题报告

2020-02-18 19:25:07

1. 研究目的与意义（文献综述）

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在自然语言处理系统中，词是最小的能够独立活动的有意义的成分。中文文本分词指的是将一个汉字序列切分成一个个单独的词，由计算机自动识别文本中词边界的过程。中文分词是中文信息处理中最重要的预处理过程。

随着计算机技术的发展，自然语言处理技术有了很大的提升。目前学术界有关文本分词的研究主要集中在英语等西方语言上，而由于中英文环境中语素的不同特点，中文天然缺少像英语一样词与词之间通过空格分隔的优势，这使得中文分词较之英文分词要复杂、困难得多。中文的文本自动分词至今仍是制约中文信息处理的瓶颈，其难点主要体现在以下几个方面：

（1）词的定义模糊:目前国内语言学界并没有对中文词的标准化定义达成共识，现有的研究往往是建立在一些非标准化的定义的基础之上。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

中文分词系统是利用计算机对中文文本进行词语自动识别的系统，本文旨在通过计算机算法设计出一个分词精确度高、算法收敛快的文本分词系统，同时要求其能发现未登录词，克服传统中文分词器因为未登录词而产生分界错误等缺点。构建好的文本分词器用于社科项目申报书文本数据的分词，要求有良好的分词效果，能够挖掘新词并生成新的词库。

分词系统的核心是分词算法，分词算法从本质上来说是计算机对数据信息的处理算法。目前可以采用的技术方案有四种：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法等。

首先是基于字符串的匹配方法，又叫作机械分词方法、基于字典的分词方法，通过与机器词典中的词条进行匹配完成分词，若能在词典中找到与输入文本相同的字符串，则匹配成功。匹配原则的使用决定了分词的质量与效率，常见的匹配原则有如下四种：

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第1周—第3周搜集资料，撰写开题报告；
第4周—第5周论文开题；
第6周—第12周撰写论文初稿；
第12周—第15周修改论文；
第16周论文答辩。

4. 参考文献（12篇以上）

[1] 杜丽萍, 李晓戈, 于根, et al. 基于互信息改进算法的新词发现对中文分词系统改进[j]. 北京大学学报（自然科学版）,2016, 52(1):35-40.

[2]周俊, 郑中华, 张炜. 基于改进最大匹配算法的中文分词粗分方法[j]. 计算机工程与应用, 2014, 50(2):124-128.

[3]来斯惟, 徐立恒, 陈玉博, et al. 基于表示学习的中文分词算法探索[j]. 中文信息学报, 2013, 27(5):8-15.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码