登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 软件工程 > 正文

基于机器学习的文本内容识别分类系统——识别模块开题报告

 2020-04-23 07:04  

1. 研究目的与意义(文献综述)

随着互联网的不断发展,数字化文档信息的总量也随之快速增长,大规模文本处理已经成为一个挑战。传统的向量空间模型表征文本的方法逐渐呈现出一些问题,比如忽视词间语义关系,不能解决同义词、多义词、词间上下位关系等问题,为解决这些问题,国内外学者开始从概念或语义层次上对文本自动分类方法展开广泛的研究,出现一些新的文本分类方法,如基于词典或概念的文本分类、基于本体或语义的文本分类等。

文本分类是信息处理领域中的一个重要的研究方向。随着信息技术的发展,特别是20世纪90年代基于机器学习的文本分类方法的逐渐成熟,文本分类技术在自然语言处理与理解、信息组织与管理、内容信息过滤等领域中有着广泛的应用。由于这些领域对文本分类技术的不断需求,极大地推动了文本分类技术的深入研究,使文本分类技术成为计算机技术的热点研究课题。

在基于机器学习的文本分类研究中,按照分类学习方式的不同,可分为有监督分类、半监督分类和无监督分类三种。有监督分类通常简称为文本分类(text categorization,简称tc),它的主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别;无监督分类称为文本聚类(clustering),文本聚类是按照某种准则对文本集合进行组织或划分,使得相似的文本划分到同一簇中,差异较大的文本划分到不同簇中;半监督学习介于有监督分类与无监督分类之间,它主要关注的是当训练样本不足或者数据的部分信息缺失的情况下,如何获得具有良好泛化能力的学习机器,对文本类别进行正确区分。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

研究的基本内容是对训练集训练后,程序能生成一个分类器,对输入的文档进行分类。目标是可以在输入的文档中找到属于某一特定类的所有文档。拟采用python语言以及朴素贝叶斯分类算法。

首先需要获取中文文本分类语料库,其中包括训练集和测试集,由于语料库中的文本都是未经过处理的原始语料,所以需要先对其进行分词处理,然后利用分词结果,对文本进行结构化的表示。相对于英文而言,中文分词有其独特的难点,我选择采用python的第三方库jieba来进行分词。在获得分词后的语料库之后,需要将其表示为变量,在此采用Bunch数据结构来表示处理后的训练集和测试集。由于中文中语气助词或者说一些无意义的词比较多,这些词通常对文本分类起不到什么作用,所以需要将这些词汇以及标点符号去除。然后,将已经处理过的训练集文本利用TF-IDF技术进行处理,并将其存放在一个向量空间中,同时,保存每一个词的权值,形成权重矩阵。最后,选择采用朴素贝叶斯分类器,利用python中已经封装好的函数MultinomialNB来获取训练集的权重矩阵,对训练集进行训练,然后再获取测试集的权重矩阵,进行预测。

3. 研究计划与安排

1.2018/1/14-2018/3/5,确定选题,查阅文献,外文翻译和撰写开题报告;2.2018/3/6-2018/4/30,系统架构,程序设计与开发,系统测试与完善;

3.2018/5/1-2018/5/26,撰写修改论文;

4.2018/5/27-2018/6/6,准备答辩;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]alpaydin e. introduction to machinelearning[m]. mit press, 2014.

[2]khan k u, qamar u. improved single-labeltext categorization by instance filtration[c]//complex, intelligent, andsoftware intensive systems (cisis), 2015 ninth international conference on.ieee, 2015: 28-35.

[3]trstenjak b, mikac s, donko d. knn with tf-idfbased framework for text categorization[j]. procedia engineering, 2014, 69:1356-1364.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图