基于博客话题的短文本相似性研究毕业论文

2021-03-22 23:04:41

摘要

文本作为信息的主要载体之一，其相似性研究是自然语言处理的重要基础。中文文本的相似性问题研究对国内信息应用者来说，更是有着特别的意义，关系着中文语言信息处理技术的发展。

本文在学习借鉴目前主流的中文文本相似度计算相关算法和模型基础上，即层叠形马尔可夫模型CHMM，VSM空间向量模型和K-means聚类算法等，集成运用中文分词、向量转化、相似度计算和文本聚类等方法，并就相关的模型算法进行了分析和评价。本文从网上抓取大量的博客文本作为研究素材，进行了实验，完成了一个基于博客话题的中文文本相似性计算的原型系统，并成功完成了对博客的分类。

本文的研究内容及成果为了解中文文本相似性研究过程提供了范例，对博客这类短文本内容的分析、调查和对文本分类、查重等工作都有一定的助益。

关键词：文本相似性；VSM模型；分词；聚类

Abstract

Text is one of the main carriers of information, the study of the similarity of it is an important basis for natural language processing. The study of the similarity of Chinese texts is of particular significance to domestic information users, which is related to the development of Chinese language information processing technology.

This thesis learns from the current mainstream Chinese text similarity calculation related algorithms and models，which are CHMM(Hierarchical Hidden Markov Model) ,VSM (Vector Space Model) , K-means and so on. On this basis, I imploded the use of Chinese word segmentation, vector transformation, similarity calculation and text clustering and other methods, and conducted experiment，analyzed and evaluated the relevant model algorithm. This thesis grabbed a lot of blog text as a research material from the Internet, then completed a basic Chinese text similarity calculation of the prototype system function based on the topics of blog. This paper chooses a large number of blog articles as the research material, and has successfully completed its classification.

The research contents and achievements provide examples for learning the research process of similarity in Chinese text and help to analyze or investigate short text like blog and check or classify the text.

Keyword: similarity of text；VSM；word segmentation；cluster

1 绪论 1

1.1研究的背景及意义 1

1.2国内外的研究现状 1

1.2.1中文分词 1

1.2.2文本相似度计算 2

1.3本文研究内容和组织结构 3

2网络爬虫及文章抓取 4

2.1网络爬虫简介 4

2.2 基于Python的网络爬虫设计 4

2.2.1开发工具及环境 4

2.2.2目标网页分析 4

2.2.3爬虫架构 6

2.3爬虫程序实现 6

2.4博客抓取结果 8

2.5本章小结 8

3中文分词 9

3.1分词算法 9

3.1.1分词算法简介 9

3.1.2基于类的隐马分词算法 9

3.2基于Ansj的中文分词设计与实现 10

3.2.1 Ansj分词器简介 10

3.2.2 Ansj算法模型设计 11

3.2.3 Ansj分词实现 12

3.3分词结果评价 14

3.4本章小结 14

4文本相似度计算 15

4.1 空间向量模型 15

4.1.1 TF-IDF算法 15

4.1.2 关键词 15

4.1.3文本表示模型 16

4.2基于VSM的文本相似度算法设计 16

4.2.1基于Ansj的关键词提取 16

4.2.2向量转化算法设计 17

4.2.3余弦相似度计算 17

4.3文本相似度计算算法实现 18

4.3.1提取关键词 18

4.3.2文本转化为向量 18

4.3.3余弦值计算 20

4.4计算结果及评价 20

4.5本章小结 21

5文本聚类 22

5.1 K-means算法 22

5.1.1算法原理 22

5.1.2算法评价 22

5.2基于K-means的文本聚类算法设计 23

5.3文本聚类算法实现 23

5.4聚类结果评价 25

5.5本章小结 25

6总结及展望 26

6.1工作总结 26

6.2研究展望 27

参考文献 28

致谢 29

1 绪论

文本的相似性研究涉及领域较广，应用较多，有者广阔的发展前景。尤其是中文文本的相似性研究，相对而言进展较慢，且难度更大，需要国内的研究人员投入更大的精力来推动其发展。

1.1研究的背景及意义

随着计算机的普及以及信息技术的高速发展，网络逐渐成为大众获取和传播信息的主要媒介。互联网上拥有着海量的复杂的信息资源，如何使得人们有效便捷地获取所需要的信息，是当下信息技术的研究重点和热点，而这有赖于信息处理技术的不断革新和发展。

文本作为信息的重要载体，使得文本信息处理成为当下信息处理技术研究的重要领域。文本的相似性研究则是文本信息处理的基础问题，其普遍应用于信息检索、文本聚类、文本查重和机器翻译等多个相关领域，许多国内外专家学者都致力于文本相似性的研究，有力地促进了信息处理技术的发展。由于中文在分词上区别于外文的特殊问题，中文文本的相似性研究较之外文有着更高的难度和复杂性。在如今这个日新月异的信息化的社会，推动中文文本处理技术的发展势在必行，而发展该技术的首要的基础的问题就是中文文本相似性的研究。

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码

基于博客话题的短文本相似性研究毕业论文

1 绪论

1.1研究的背景及意义

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

基于博客话题的短文本相似性研究毕业论文

1 绪论

1.1研究的背景及意义

您可能感兴趣的文章

最新文档

推荐栏目