基于特征提取和主题模型的中文文本分类系统的设计开题报告

2021-03-10 23:37:35

1. 研究目的与意义（文献综述）

1.1目的及意义

文本，从人类文明的发源时期就已经出现，甲骨文，篆刻，再到在竹简或白纸上书写的文字，其是指书面语言的表达形式，由具有完整意义的一个或多个句子组成，用来记录或传递某些信息。

而当今社会，随着互联网的日益强大，如个人计算机的快速发展与普及，人手一台的智能手机等等，已经成为每个人生活中不可或缺的一部分。信息资源的获得手段与内容日新月异，而文本作为形形色色的信息的载体，也随着互联网的发展呈现出新的特点。相比起几十年前，文本的出现大部分都在书籍当中，而现在，包括科技文献，新闻消息，广告推荐等等，都可以以文本的形式通过互联网抵达每个人的面前。然而，这也带来的新的问题，在如此海量的信息面前，显然不是每种信息都是我们所需要的，从庞大的消息里面提取、分类出我们各个人说需要的信息就显得愈发重要。因此，我们应当对这些信息进行适当分类，虑除糟粕，取其精华，从而帮助我们获取有效、高效的信息资源。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。文本分类步骤一般包括了文本的预处理、特征提取、分类器的选择、训练集训练、测试集测试、分类结果的评价等步骤。特征提取是通过对原始特征进行降维，以达到去除特征集中对文本分类无意义的特征,进而提高分类效果的最终目的。

本系统主要实现将输入本文进行分类，中文文本分类的实现步骤是：分词分句、词性标注、从文本中提取主题词或关键词、根据提取的文本中的主题词或关键词与要求分类设置的主题词或关键词进行相似度计算、根据相似度计算结果对文本进行排序分类（通常是相似度越高的文本排在最前面）。使用到的技术有svm（支持向量机）和lda（主题模型）。软件的开发以snownlp（开源）为主，其他libshorttext、textgrocery为参考。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第1－3周：查阅相关文献资料，明确研究内容，了解研究所需理论基础。确定方案，完成开题报告。

第4－5周：熟悉掌握基本理论，完成英文资料的翻译，熟悉开发环境。

第6－9周：编程实现各算法，并进行仿真调试。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1]吕超镇,姬东鸿,吴飞飞. 基于lda特征扩展的短文本分类[j]. 计算机工程与应用,2015,(04):123-127.

[2]杨杰明. 文本分类中文本表示模型和特征选择算法研究[d].吉林大学,2013.

[3]崔建明,刘建明,廖周宇. 基于svm算法的文本分类技术研究[j]. 计算机仿真,2013,(02):299-302.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码