基于机器学习的新闻网页识别方法研究与实现毕业论文

2020-02-16 22:49:04

摘要

随着互联网的快速发展，网页数量不断增加，以及网页数据的格式和类别也变得越来越杂乱无章，使得用户在快速寻找信息和阅读等方面面临困难。

本文利用新闻内容获得更多的特征来进行中文新闻网页的自动分类，可以大大提高分类准确度。本文所做工作的主要内容如下：

（1）数据预处理。因为搜狗实验室的新闻数据集只标注新闻，没有具体的分类，所以必须首先对新闻数据集进行整理，从其中抽取出几万条数据进行分类标注，然后通过中文分词工具Jieba对数据进行分词，接着过滤对分类意义不大的停助词。

（2）基于朴素贝叶斯的网页二分类。统计单词出现的频度，选取出现频率排名在450名以后关键词作为特征词，将训练集抽取的特征词使用布尔模型表示，输入到朴素贝叶斯模型中进行训练，然后将测试集抽取的特征词输入训练好的朴素贝叶斯模型中，得到预测结果。

（3）通过skip-gram模型训练词向量模型。将分词好的单词输入词向量模型中进行训练，得到词向量模型。

（4）基于卷积神经网络的新闻网页多分类。将分词后的单词传入训练好的词向量模型中得到word enbedding向量，然后word enbedding向量堆叠成矩阵。根据一般卷积分类模型架构，本文在制作的数据集上给出了卷积网络模型。将矩阵输入卷积神经网络的输入层进行训练。测试集输入训练好的卷积神经网络模型，得到实验结果。

关键词：网页分类；中文分词；特征提取；朴素贝叶斯；卷积神经网络

Abstract

With the rapid development of the Internet, the number of web pages is increasing, and the format and categories of web page data are becoming more and more chaotic, making users face difficulties in quickly finding information and reading.This article uses the news content to obtain more features to automatically classify Chinese news pages, which can greatly improve the classification accuracy. The main contents of the work done in this paper are as follows:

(1)Data preprocessing. Because Sogou Lab's news data set only labels news, there is no specific classification, so we must first sort out the news data set, extract tens of thousands of data from it for classification and labeling, and then use the Chinese word segmentation tool Jieba to segment the data. Then, the stop words with little meaning to the classification are filtered, and then the keywords with higher frequency are selected as the feature words.

(2)Webpage 2 classification based on Naive Bayes. The feature words extracted from the training set are represented by VSM vector space model, input into the naive Bayesian model for training, and then the feature words extracted by the test set are input into the trained naive Bayesian model to obtain the prediction result.

(3) The word vector model is trained by the skip-gram model. The word segmentation word is input into the word vector model for training, and the word vector model is obtained.

(4)Multi-category of news web pages based on convolutional neural networks. The words after the word segmentation are introduced into the trained word vector model to obtain the word enbedding vector, and then the word enbedding vectors are stacked into a matrix. According to the general volume integral class model architecture, this paper presents a convolutional network model on the data set produced. The input layer of the matrix input convolutional neural network is trained. The test set inputs the trained convolutional neural network model and obtains the experimental results.

Key Words：web page classification；Chinese word segmentation；feature extraction；naive Bayes；convolutional neural network

第1章绪论 1

1.1 研究背景及意义 1

1.1.1 研究背景 1

1.1.2 研究意义 1

1.2 国内外研究现状 2

1.2.1 深度学习研究现状 2

1.2.2 网页分类研究现状 3

1.3 本文研究目的和内容安排 4

1.4 本章小结 4

第2章数据预处理和特征提取 5

2.1 新闻文本特征 5

2.2 数据预处理 5

2.3 中文分词 5

2.4 去除停用词 6

2.5 特征提取方法 7

2.5.1 特征选择方法 7

2.5.2 文本特征表示方法 8

2.6 本章小结 9

第3章基于机器学习的网页分类方法 10

3.1 评价指标 10

3.2 基于朴素贝叶斯的网页二分类 10

3.2.1 数据集 10

3.2.2 实验环境 10

3.2.3 朴素贝叶斯模型训练 11

3.2.4 实验结果及分析 12

3.3 基于卷积神经网络的新闻网页多分类 12

3.3.1 数据集 12

3.3.2 word2vec特征提取 12

3.3.3 模型设计 13

3.3.4 模型训练 14

3.3.5 实验环境 15

3.3.6 实验结果及分析 15

3.4 本章小结 17

第4章总结与展望 18

4.1 主要研究总结 18

4.2 展望 18

参考文献 20

致谢 21

第1章绪论

1. 研究背景及意义

1.1.1 研究背景

进入大数据时代以来，数据的快速增长给人们带来丰富的在线信息。但同时，也使得如何从海量的数据中快速准确的得到对我们有用的数据信息成为一个严峻的挑战。正因如此，最近这几年人们在数据挖掘方面进行了深入的研究。其中网页分类是数据挖掘领域的一个重要难题，主要就是将每天产生的海量的但是杂乱无章的网页，按内容分类到预定好的标签中。随着大数据的产生和发展使得原本很多之前被浪费掉的数据有了用武之地，然而这也使得在线网页信息呈现出更加繁琐的种类等一系列特征，给网页分类带来了新的挑战。

随着人工智能技术的发展以及在部分领域的成功应用，人工智能技术变得炙手可热，深度学习作为使得机器学习重新崛起的核心技术，也成为全世界学者的核心研究对象，并且真正地开始从纯学术研究转向商用。

1.1.2 研究意义

相比于图像、音频或者视频信息，文本信息更加的简单也更加的直接，数据量也更加的多。这也导致文本信息分析随着网络的快速普及和发展，受到越来越多的重视。文本分类技术是文本信息分析技术的基础，也是自然语言处理的关键技术^[1]。分类问题是机器学习要解决的重要问题，分类问题是一个很广泛的概念，不仅涉及文本分类、网页分类等问题，还包括垃圾邮件过滤、情感分析等领域，它们虽然涉及的具体领域不同，但是本质都是相同的，即通过人工或者训练的方法提取局部或者全局特征，有时需要对特征进行取舍，放弃一些不重要的特征，而后按照某些标准进行匹配，选择最优的匹配结果得到最后的分类结果。

在线新闻信息作为当代群众了解世界最快捷、最准确以及最权威的方式，受到越来越多的重视。随着新时代的到来，新闻信息也出现了新的特点：首先新闻类型变得更加丰富。随着人们精神生活的日益丰富，在浏览新闻的时候，人们不再仅仅满足于像过去一样了解国家大事，同时各种各样的娱乐、科技、体育、金融等新闻日益成为人们关注的焦点，每天数以亿计的互联网用户都在浏览着自己感兴趣的新闻，而如何整理大量繁杂的新闻，以满足各种各样用户的需求成为如今的焦点；其次，新闻数据量变得更加庞大，相比于最早的纸质报纸能记录的新闻或者之前只记录国家大事的新闻，如今的新闻信息包括体育、娱乐等方方面面的信息。目前的新闻分类方法使用浅层机器学习的方法，网络结构简单，使用人工方法进行特征词的标注，需要开发者具有较多相关专业的知识。

在网页分类领域，目前比较成熟的技术是使用支持向量机或朴素贝叶斯等浅层机器学习技术对网页文本内容进行分析，本文使用朴素贝叶斯模型来解决网页二分类问题。但浅层机器学习技术结构简单，尤其在进行特征提取时需要人工参与。尤其是随着深度学习的兴起，文本分类问题的研究迎来了一场巨大的革命，深度学习算法渐渐应用到文本分类领域，给该领域注入了新的生机和活力。深度学习技术可以通过对大量的数据进行训练，自动得进行特征提取，减少人工的参与。本文应用CNN来解决新闻多分类问题，让机器通过大量的训练，可以自动提取出新闻中的特征词，减少人工参与。

1.2 国内外研究现状

1.2.1 深度学习研究现状

深度学习的研究终于使得人工智能从无人问津变成如今的研究热点，深度学习自然无可厚非的成为当代人工智能的核心技术。随着快节奏时代的到来，人们在浏览和接触信息的时候，对信息处理的速度提出了更高的要求，以浅层机器学习为主的文本分析方法渐渐不能满足海量文本数据的处理。因此越来越多的研究人员将目标转移到将深度学习应用于文本分类领域。

深度学习起源于由Geoffrey Hinton和他的学生发表的基于神经网络的论文^[2]。深度学习相比于传统的浅层机器学习，结构更加复杂，可以由多层构成，同时可以通过对大量数据的训练学会特征提取，减少了人工参与。

不仅在研究领域深度学习成为计算机科学研究的核心，而且国内外大型企业关于深度学习的研究也越来越火热。其中最著名的就是，Google的几代AlphaGo先后于国内外围棋高手对决并取得胜利，这一壮举震惊世界；国内的百度、腾讯和阿里巴巴等互联网公司纷纷创立深度学习实验室，并取得了一定得成果。

卷积神经网络是一种具有复杂结构的神经网络，使用卷积计算进行特征提取，是深度学习的代表算法之一。在卷积神经网络的结构中最重要的就是卷积层和池化层组合而成的特征抽取器，可以对输入的数据进行全局或局部特征的再抽取；此外还有Dropout层，该层可以使模型进行训练学习的时候让神经元不是和上一层的所有神经元相连，而只和一部分神经元相连；以及全连接层（Dense层），该层连接所有的特征，将预测的结果传入分类器。相比传统的全连接网络，卷积神经网络不仅可以使用Dropout层进行局部连接，还有权值共享的优点，使得卷积网络可以尽可能保留重要的参数，减少不重要的参数，提高学习和预测的效率。所以本文采用卷积神经网络模型来完成新闻网页分类任务

1.2.2 网页分类研究现状

网页分类一般基于内容或者标题进行分类，因此中文网页分类尤其是新闻分类的基础就是文本分类，而文本分类的研究起源于1950年左右，首先是由国外学者发展起来的，支持向量机（SVM）、朴素贝叶斯等经典的文本分类算法都在英文文本的分类上取得了杰出的效果。国内对中文文本的研究起步较晚，主要是关于汉字编码的问题，迟迟不能颁布国家标准。正因为网页分类尤其是新闻分类一般基于内容进行分类，所以不少研究人员尝试直接使用纯文本分类技术实现网页分类。中文文本分类方法，按照是否使用深度学习技术参与分类任务为标准，大致可以分为基于传统机器学习即浅层机器学习的文本分类和基于深度学习的文本分类。其中传统的机器学习一般只有一层，特征工程一般需要人工完成，这就对进行特征提取的专业人士的相关知识有很高的要求。而深度学习网络由多层构成，数据从输入层传入后一层一层的传递，从而构建成为复杂的深度学习模型。深度学习可以通过对大量数据的训练自动得出模型，尽量减少了人工参与，提高效率。不过深度学习模型一般是通过对大量数据的训练自动得出模型，所以需要大量的数据作为训练材料。并且深度学习模型由多层组成，结构复杂，所以训练深度学习神经网络需要更多的时间和资源。在区分网页为新闻网页和非新闻网页这个二分问题上使用朴素贝叶斯分类算法可以在节约学习时间的基础上取得较好的效果，而在新闻网页分类这个多分类问题上，使用基于卷积神经网络分类算法可以提高准确率。但是也有不少研究人员也提出网页要比纯文本包含的信息丰富的多，网页包含很多独特的特征信息。网页与普通的文本相比，具有很多结构化，半结构化数据，除此之外还有一些广告链接、噪声等因素。正是因为想要利用网页的特征信息参与到网页分类中^[3]去，董静等人提出了基于网页风格、形态和内容等多种因素的网页形式分类方法，将网页的风格、形态这些不属于网页内容的因素加入网页分类问题研究中，事实证明分类的准确率有一些提高^[4]。除了更多将影响新闻分类的因素考虑进去，还有一些研究人员转变研究方面，将研究的焦点放到特征抽取上，致力于研究出更加有效率更加全面的特征抽取方法，比如马晋等人就基于这种想法，在提出的大规模网络分类方法中使用了一种分块的特征抽取方法，提高了特征抽取效率^[5]。但是以上的研究大多基于SVM算法，在当代难以应对大规模数据的要求，且不能很好的支持多分类。针对这些问题，本文应用朴素贝叶斯模型解决网页二分类问题，应用卷积神经网络模型解决新闻网页多分类问题。

1.3 本文研究目的和内容安排

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码