基于Python的中文文本关键字提取方法研究开题报告
2020-02-20 08:14:09
1. 研究目的与意义(文献综述)
1.研究目的及意义(含国内外现状分析)
【研究目的及意义】
随着信息技术的普遍应用,人类获取数据的能力不断增强;据有关统计,在全世界的业务管理、政府管理、科学与工程管理和其他应用领域存在大量数据,并且其数量和规模不断地增加和扩大。然而,如何利用这些海量数据,如何从数据中提取有用的信息,是经营管理者面临得一个共同难题。为解决这个难题,有关人员提出一系列技术和方法,这些技术和方法就是数据库知识发现,又称为数据挖掘技术[1],目的就是智能化和自动化地发现隐藏的信息和知识,发现先前未知的模式,能从历史数据中预测未来发展趋势。它是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学等。
2. 研究的基本内容与方案
2.项目的研究内容、研究目标,以及拟采用的方法和措施;
【研究内容】
针对中长篇幅的中文文本,文本的关键词等同于最能表达文档主旨的n个词语,即对于文本来说最重要的词,因此,可以将文本关键词抽取问题转化为词语重要性排序问题,选取排名前top-n个词语作为文本关键词。目前,主流的文本关键词抽取方法主要有以下两大类:
3. 研究计划与安排
1~2周:阅读和消化资料,提出毕业设计方案,完成开题报告;
3~4周 :通过阅读相关资料,了解中文文本关键字提取问题的背景和研究意义;
5~6周:掌握文本关键字提取算法思想;
4. 参考文献(12篇以上)
[1] pang-ning tan m. s., vipinkumar. 数据挖掘导论[m]. 第1版.北京:人民邮电出版社, 2007,45-46.
[2] jiawei han m. k. 范. 孟. 等. 数据挖掘概念与技术[m]. 第1版.北京:机械工业出版社, 2006,285-289.
[3] r. cooley b. m., j. srivastava,web mining: information and pattern discovery on the world wide[a]. proceeding ofthe 9th ieee international conference on tools with artificial intelligence[c].newport beach, ca, usa: ieee,1997,558-567.