基于深度学习的文本分类研究文献综述

2020-04-14 17:27:16

1．目的及意义

1、目的及意义

1.1 研究意义

随着信息和互联网技术的快速发展，数字信息量呈爆炸式的增长，各种各样的数字信息充斥人们生活的每个角落。人们享受着这些数字信息带来的便利，同时还在不断的产生和创造新的数字信息数据。预计由于信息技术的发展和硬件设备的广泛应用，全球的数据总量每18个月增长一倍，诸多文本信息的增长速度已远远超越了人工处理数据的能力，文本等非结构化或非结构化的数据信息约占数据信息的很大一部分，人类社会早已进入了数字数字信息时代，将面临着难以想象的大数据时代的到来。因此，有效的组织管理和利用当前的数据信息是当前工业界和学术界的热点问题。文本数据作为数据信息的一种重要承载形式，如何对其进行有效的组织管理与定位利用信息，进年来得到了人们广泛关注并快速发展，文本分类技术作为一种高效的信息检索和数据挖掘的信息技术，在对文本数据信息的组织和管理中有着举足轻重的地位。

文本分类（Text Classification）是自然语言处理领域的核心任务之一，其主要目标在于从自然语言中理解语义并分析归纳信息，为用户简化信息管理。在图书管理、网络信息过滤、用户推荐系统、垃圾邮件过滤等涉及自然语言处理的项目中均起到重要作用，因此其属于当前自然语言领域的一大热点。传统文本分类主要基于人工规则，停用词过滤，主题分析等机制。

深度学习（DeepLearning）是一套基于高度抽象化的数据模型的算法的统称，属于机器学习的一个分支。人工智能领域能处理的三大信息格式主要为：文本，语音和图像。其中，文本处理由于其庞大的数据源，相对成熟的处理技术和广泛的应用的需求，备受关注。文本处理中最典型的场景为文本自动分类，即由计算机系统自动将文本数据归类到预设好的类别中。文本自动分类有着重要的应用，如客服工单的自动分类、提供个性化新闻。

在文本分类领域应用深度学习有着很深的意义，从流程来说，虽然基于机器学习的文本分类技术已经较为成熟，也被推广使用，但仍存在诸多不能满足用户的不足之处，比如机器学习算法的性能很大程度取决于特征表示好坏，直接影响分类性能。而利用深度学习网络，并结合自然语言本身的规则，可以使机器自动学习文本的表述特征，避免一些繁复的特征处理步骤及认为的误差，节约人工成本，简化分类流程。

1.2 国内外研究现状

深度学习并不是全新的技术，其源头可以追溯到二十世纪四五十年代，起源于通过生物神经网络模拟各种机器学习的问题，但是进展一直不大。二十世纪八十年代，Hinton等人发表了反向传播算法，它能够让神经网络训练的更加的简单，因此在八九十年代，神经网络技术曾一度非常流行。近些年来深度学习的技术不断的得到发展，在计算机视觉领域如手写数字识别，笔记识别，人脸识别等图像任务中，深度学习方法也取得了对传统方法的全面优势。在语音识别领域，深度学习技术也有突破，已经实现自动语音识别等强大的功能。在文本识别领域，同样没有落后，目前已经有各种方法实现了文本自动分类。在其他领域也有突破，2016年，谷歌（Google）旗下的DeepMind公司开发的AlphaGo战胜了世界围棋冠军、职业九段选手李世石，成为近期深度学习技术领域的轰动性事件。

文本分类是自然语言处理中的一类基础任务，是为待分类的文本贴上合适的标签。它有非常广泛的应用，包括主题分类，情感分析，垃圾邮件等。文本分类技术可以在短时间内处理大量的文本数据，节约了人力，提升效率成为自然语言处理领域的一个重要的研究方向。国内有关文本分类的研究工作进展的相对较晚，但经过这些年的发展已经取得了较大的发展中文语言的特殊性使得字词之间没有明显分隔符号，而英文文本字词之间都有空格。这使得中文文本分类与英文文本分类在方法的有效性与难度上都难以突破在对文本进行分类之前先要进行其进行预处理，文本与处理中就包括文本分词，把文本中的语句经过分割后得到文本的词组特征，例如中科院研究所等开发的ICTCLAS2012-SDK-U0106分词软件，虽然分词准确半较高，但由于文本语境中不断出现的动态词汇如许多新词、专业词汇等，给现有的分词系统带来了不小的挑战，中文文本的请法，句法比英文要复杂的多，这也导致现有的中文文本分类要比英文文本分类困难，但是经过我国研究学者多年的努力中文文本分类计数也取得了很大的成果，目前国内的研究学者在英文文本分类的基础上，结合中文文本的特定语义知识，形成了基于中文文本自动分类体系。2005年，李荣陆等人应用最大熵模型进行了中文文本分类明王建会等人提出并结合了互依赖和等效半径的概念，研发了一种基于互依赖和等效半径、易于更新的SECTILE文本分类算法:该算法计算复杂度低且易于扩展。2006年，尚文倩等人提出了另一种新的基于基尼指数的文本特征选择算法，使用基尼指数原理构造文本特征选择评价函数进行了文本特征选择的研究。苏金树等人从模型、算法和评测等方面给出了基于机器学习的文本分类方法的综合论述，认为非线性、数据集偏斜多层分类、算法的拓展性等问题是目前研究的核心研究问题,并对这些问题提出了具体可行的方法，且对该方向做了展望。

大体上，文本分类技术可以分为有监督和无监督两种途径。有监督主要面向各种分类任务，如关系分类任务，情感分析任务等。无监督方法较为经典的是Mikolov等人的paragraph vector 方法，在训练语言模型预测目标词汇的过程中，在输入层加入一个句子的表示。一般采用有监督的途径较多，在该途径下，整个文本分类任务分为两部分:分类器选用及文本特征表达。

一般文本分类的分类器可选用经典机器学习算法模型，如朴素贝叶斯(NaiveBayes)、决策树(Decision Tree)、K最近邻(kNN,k-NearestNeighbor)、支持向量机(SVM, Support Vector Machine)、线性回归(Linear Regression)等。一般认为各类分类器的差异在于其利用特征的方法不同，在不同任务上有不同的表现，没有明显的优劣之分。在深度学习中，由于反向传播(BP, Back Propagation)算法的应用，一般使用的分类器即为sofimax分类器，它是logistic问归模型在多分类问题上的推广间。

文本特征表达指用某些典型的特征数据结构表示待处理的文本。传统的文本分类方法的代表是采用稀疏词法特征来表示待分类的文档，如采用部分典型词来表示整篇文档的词袋法( Bag of Words)、N元文法(N-GRAM)、TF-IDF(TermFrequency InverseDocument Frequency)特征等121，然后再利用这些特征作为分类器的输入，得到分类结果。近些年来般将待处理文档用向量表示。那么如何提取整篇文档的特征，如何组成恰当的表示，即为该方面主要研究的技术。

在深度学习技术被广泛应用的现在，文本表示的主要进展在于将神经网络技术引入文本特征表达上。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码