基于向量表示的文本聚类方法研究文献综述

2020-04-15 09:36:05

1．目的及意义

聚类是统计数据分析的一门技术，是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（Subset），这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。

聚类在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息。在商务上，聚类能帮助市场分析人员从客户基本库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征。在生物学上，聚类能用于推导植物和动物的分类，对基因进行分类，获得对种群中固有结构的认识。在数据挖掘上，聚类分析可以作为数据挖掘算法中其他分析算法的一个预处理步骤。聚类也能用于对Web上的文档进行划分，可以作为一个单独的工具以发现数据集中分布的一些深层的信息，并且概括出每一类的特点。

文本表示模型主要有三种：集合论模型、向量空间模型和概率模型。文本的表示是文本聚类的一个重要方面，因为文本无论长短，表达出来的所有语义信息仅仅使用几个离散的词来表示是不精确的。文本向量空间模型能有效改进以往对文档表示方式过于简单，文本中的语义信息损失比较大的情况。

文本聚类作为一种无监督的机器学习方法，对大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一，是对文本信息进行有效地组织、摘要和导航的重要手段，为越来越多的研究人员所关注。国外很早就展开了对于文本挖掘的研究工作，在许多方面都做了十分深层次的探究而且获得了很多有实际意义的结果，这些方面包括自动取得特征词、文本聚类技术和提取半结构化的信息技术等。国内对于文本挖掘的研究，从1998年开始在国家重点基础研究发展规划中将文本挖掘作为研究的重要内容。很多高等院校、科研院所和各种信息公司都作为这项技术的主要的研究场所和机构，其中，聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。

本人将研究分析多种基于向量表示的文本聚类算法，通过对照实验评估聚类结果，旨在探讨更优的处理文本聚类方式，解锁非结构化文本中的巨大价值和见解。{title}

2. 研究的基本内容与方案

{title}

1）研究的基本内容

文本聚类(Text Clustering)主要是依据著名的聚类假设:同类的文档相似度较大，而不同类的文档相似度较小。聚类不需要对数据进行训练和学习，属于无监督学习，根据文档之间的相似度，可以将文档集分类划分为一些小的文档子集。常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。

文本的向量空间模型（VSM)，是将文档和查询都用向量来表示。每一维都对应于一个的单词或词组，词组的定义按不同应用而定，典型的词组就是一个单一的词、关键词、或者较长的短语。通过SVM模型，可以将文本转化为向量表示的结构化数据。

对聚类效果的评价，指标包括：紧密性（Compactness）、间隔性（Separation）、戴维森堡丁指数（Davies-Bouldin Index）、邓恩指数（Dunn ValidityIndex）等。

2）研究的目标：

研究当前自然语言处理领域的文本聚类算法，针对新闻文本数据构建向量模型，运用算法库和大数据平台等有关的工程知识对数据集进行处理，通过python编程实现文本聚类功能，对聚类算法的结果进行分析和评价。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码