登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 管理学类 > 信息管理与信息系统 > 正文

web热点新闻舆情分析系统毕业论文

 2020-02-19 08:02  

摘 要

在万物互联的互联网时代,信息的产生和传播都异常迅速,移动设备的普及和移动社交软件的推广,更加速推动了现代社会新闻传播方式的变革。当前环境下,网络用户获取信息的渠道多种多样,发表意见方式和表达诉求的内容也日渐丰富。人们在杂乱无章的海量新闻信息中获取热门新闻资讯的变得愈发困难,而因热门话题产生的各种舆论态势也是有关部门应对的重点。

本文研究的内容包括热点新闻的发现和舆情分析。热点新闻的发现与追踪,首先是从新闻网站爬取大量的新闻数据信息,然后利用向量空间模型进行建模,再对建模后的文本进行聚类整合,抓取出热门新闻。舆情的发现与检测是社会舆情管理的重要组成部分,在本系统中通过对热点新闻的热度计算,分析各新闻话题的情感倾向,得出情感走势图,利用可视化工具展现出潜在的舆情态势。

本文研究的主要流程是系统分析、系统设计、系统实施、系统测试等几个环节。系统分析环节主要是对系统的需求、业务流程、数据流等进行分析,为接下来的设计做好准备。系统设计主要涉及的是功能模块设计、数据库设计、技术的具体应用。系统实施是根据系统设计内容,进行编程实施。最后的系统测试是进行系统的模拟运行和做一些数据合法性和准确性的测试。

本系统使用Java语言进行开发,使用springboot框架搭建服务体系,前端使用thymeleaf模板引擎进行渲染,使用网络爬虫进行热点新闻文档信息的爬取,使用K-Means聚类方法进行文本聚类。使用Echart的地图、折线图、柱状图等形式展示新闻热度和舆论趋势。

关键词:热点新闻;数据可视化;springboot框架;情感分析

Abstract

In the internet era of the interconnection of all things, the generation and dissemination of information are extremely rapid, the popularization of mobile devices and the popularization of mobile social software have accelerated the transformation of the way of news communication in modern society. Under the current environment, network users have a variety of channels for obtaining information, and the content of their opinions and expressions is increasingly enriched. It is becoming more and more difficult for people to get hot news information in the messy amount of news, and the various public opinion situations caused by hot topics are also the focus of the relevant departments.

The contents of this paper include the discovery of hot news and the analysis of public opinion. The discovery and tracking of hot news, first of all, from the news website to crawl a large number of news data information, and then use the vector space model for modeling, and then the modeling of the text clustering integration, grasp the capture of popular news. The discovery and detection of public opinion is an important part of the management of social opinion, in this system, through the heat calculation of hot news, analyze the emotional tendency of various news topics, draw emotional trend map, use visualization tools to show the potential public opinion situation.

The main processes studied in this paper are system analysis, system design, system implementation, system testing and so on. The system Analysis link mainly carries on the analysis to the system demand, the business process, the data flow and so on, prepares for the next design. The system design mainly involves the function module design, the database design, the technology concrete application. System implementation is based on the system design content, programming implementation. The final system test is to carry on the simulation operation of the system and do some testing of the legitimacy and accuracy of the data.

This system uses the Java language to develop, uses the Springboot framework to build the service system, the front end uses the Thymeleaf template engine to render, uses the network crawler to crawl the hotspot news Document information, uses the K-Means clustering method to carry on the text clustering. Use Echart maps, line charts, histograms and other forms to display news heat and public opinion trends.

Keywords: hot news; data visualization; Springboot framework; Emotional analysis

目录

1 绪论 1

1.1背景及意义 1

1.1.1研究的背景 1

1.1.2研究的意义 1

1.2国内外研究现状 2

1.2.1国外研究现状 2

1.2.2国内研究现状 2

1.3设计内容与设计方法 3

1.3.1系统目标和研究内容 3

1.3.2采用的技术方案与措施 3

2 相关技术与模型 4

2.1网页新闻数据采集技术 4

2.1.1网络爬虫技术简介 4

2.1.2网页DOM结构 4

2.2向量空间模型 5

2.3文本聚类 5

2.4情感分析 6

3 系统分析 7

3.1需求分析 7

3.2业务流程分析 7

3.3系统功能分析 9

3.4数据流程分析 9

3.5数据字典 12

3.5.1外部实体 12

3.5.2数据流条目 12

3.5.3数据项描述 12

3.5.4数据流清单 13

3.5.5数据存储清单 13

4 系统设计 15

4.1系统整体模块设计 15

4.1.1系统功能模块设计 15

4.2新闻信息采集模块设计 16

4.2.1网页信息的爬取 16

4.3数据整合、处理与分析模块设计 16

4.3.1文档建模 17

4.3.2文本聚类分析 18

4.3.3情感分析 18

4.4信息展示模块设计 18

4.5数据库设计 19

4.5.1编码设计 19

4.5.2概念设计 19

4.5.3逻辑设计 21

5 系统实施 23

5.1新闻信息采集模块实现 23

5.1.1网络爬虫实现 23

5.1.2原始数据存储到数据库 24

5.2数据整合、分析与处理实现 24

5.2.1利用向量空间模型建模 24

5.2.2文本聚类 25

5.2.3情感分析 25

5.3数据展示实现 26

6系统测试 27

6.1系统模拟运行 27

6.2.1模拟登录 27

6.2系统测试 30

6.2.1系统测试设计 30

6.2.2系统测试实施 30

7总结与展望 32

7.1工作总结 32

7.2展望未来 32

1 绪论

1.1背景及意义

1.1.1研究的背景

随着世界进入网络信息时代,互联网产业蓬勃发展,网络上的新闻信息急剧增长,形成了“新闻大爆炸”的现象,许多热点时事短时间内能够在互联网上迅速传播,同时又造成了大量信息的混乱与无序。一方面,人们能迅速地获取大量的热点新闻、话题,了解掌握社会信息的动态并参与到网络大讨论之中,另一方面人们又极易受到错误信息的干扰,导致因无法获取到正确的信息而做出错误的判断,引起不好的社会舆论。特别是在互联网逐渐迈入移动化时代,大量的移动网络用户加入到网民群体中来,伴随着智能手机和平板电脑等设备的普及,互联网成为了社会普通大众获取信息和参与舆论的重要载体。

同时,微博、微信、抖音、贴吧等各类平台特别是移动社交平台的迅速发展与推广,营造了一种万物皆可为媒介的新媒体环境。这种以互联网特别是移动网络为渠道以及电脑、手机等载体的媒体传播形式极大的消除了互联网用户之间的交流障碍,为新闻的及时与快速传播、人们对信息的及时获取都提供了充足的条件。这种媒体形态是当前媒体传播的主流形式和未来发展方向。

1.1.2研究的意义

如此大的信息量必然会给网络用户造成巨大的“信息冲击”,进而也引出了各类热点新闻事件以及相关的迅速传播的社会舆论。舆情是群众对时下一些热门的社会事件或者话题的讨论时所表现出的言论、观点与态度等。网络舆情即网络用户在互联网上传播的舆论,在互联网高速发展的当下,网络舆情逐步成为了社会舆情中最有影响力和传播最为迅速的一部分,极大地影响着社会整体舆论。

新闻信息的传播、网络用户的意见发表和交换,在我们所处的这个信息爆炸的时代,空前便捷和迅速。人们表达舆论的方式多种多样,表达的诉求也各不相同。这些舆论如果不加以引导,或者被别有用心的人恶意引导,会形成难以预料的负面舆论。而这些负面的网络舆论可能会威胁到我们的社会公共安全,造成不良的社会影响甚至引起社会恐慌。这就对相关政府部门提出了挑战,在舆论刚开始形成时,要做到实时的检测,并加以有效的引导,当舆论朝不好的方向发展时,要及时的应对和化解舆论危机。舆情的检测与舆论危机的应对处理是维护社会稳定的一部分,是促进国家平稳发展的社会保障,也是构建和谐社会的重要内容。

因此,本次研究的主要目的是在已有的研究工作基础上探索设计一种网络热点新闻的检测与发现体系,然后结合可视化工具,把新闻热度以可视化的方式展现出来,提供更直观的实时热度和舆论态势。

1.2国内外研究现状

1.2.1国外研究现状

目前国内外已有较为成熟的热点新闻、事件的发现方法研究。网络热点新闻话题发现的主要研究内容是从海量信息中发现研究者需要的目标信息,这需要对新闻信息进行话题的识别与后续的持续追踪。为了达到研究目的,需要完成包括新闻数据的采集与存储,新闻文档的建模,对建模后的文档数据进行聚类整合,对整合后的数据的进一步数据挖掘与分析等工作。为实现上述的数据采集与分析工作我们可利用的技术也随着时代发展慢慢进步着,例如采集新闻数据,我们可以使用网络爬虫技术;对文档建模,可以使用向量空间模型或者话题模型;对文本进行聚类、分类分析,可以采用包括单遍历(Single-Pass)聚类算法、KNN/Kmeans聚类算法、层次聚类等聚类、分类算法。其中最主要的还是从1996年开始发展至今的话题发现与跟踪(TDT)技术。TDT的检测和跟踪对象不再像之前的技术一样局限于已存在的特定事件,而是更进一步的转向突发事件及其后续,以及存在于大量无序信息中的可能成为“新闻爆点”的潜在热门新闻话题。随着一些著名的研究机构加入到这项技术的研究当中,TDT技术也在不断发展进步。例如由于需要对大量的新闻数据做文本的分类,事件的检测和追踪,国外研究者将自然语言处理技术引入到TDT中。这为TDT处理突发性和延续性新闻信息提供了技术支持,也让这项技术成为了目前信息处理领域的热点。

1.2.2国内研究现状

国内的话题检测与追踪研究展开的相对晚一些。从1999年开始国内的一些高校陆续参与了中文的话题检测与追踪测试。热点发现和舆情挖掘是随着TDT技术发展而逐步开展起来的相关研究。

陈震利用网络爬虫采集新闻数据,采用向量空间模型(VSM)和主题模型(LDA)对获取到的新闻文档进行建模研究,按照所属领域分类,利用热点新闻检测方法发现热点话题[6]。其中使用到的话题检测方法是在文本聚类的基础上实施发展的,而文本聚类的的方法又包括单遍历(Single-Pass)聚类算法、KNN/Kmeans聚类算法、层次聚类算法。其中他采用的是优化后的基于质心的文本分类算法,与传统的K-Means算法的确定质心方式不同,他采用分块并行计算的方式提高计算的效率和准确性。

刘星星等人也介绍了使用Single-Pass聚类方法和热度计算公式,其中热度计算是目前国内外研究较少的方面[8]。他们采用的处理方式是先将每天的语料做第一层聚类,得到每天的微类,然后按照日期的先后顺序,进行第二次聚类,形成事件列表,其中采用的聚类算法是Single-Pass聚类方法,在对文档聚类之后,使用热度计算公式得出相关事件热度,并根据日期得到事件的热度走势。

在舆情的发现研究方面,黄克敏[7]等人通过分析网页新闻结构,确定了新闻阅读数、评论数、单位时间内的评论数、报道量等相关参数作为舆情发现的基本要素,对这些参数进行量化计算得出新闻的相关热度,也是提供了很好的热点发现的思路。

1.3设计内容与设计方法

1.3.1系统目标和研究内容

本研究拟探索建立热点话题的检测和发现模型,根据热度计算公式计算出话题热度,构建包含但不限于热点话题发现、新闻展示及评论、个性化推送等功能的热点新闻系统。为实现以上功能,需要首先爬取新闻文档信息并进行向量空间建模,然后进行文本聚类分析,把具有相似性的文本进行聚类整合,进而提取出这些新闻中的核心话题,根据热度计算公式来计算话题热度,最后使用可视化工具来展示相关数据结果。

1.3.2采用的技术方案与措施

本系统的开发语言为Java、SQL、HTML等,使用springboot框架搭建微服务体系,通过调用API接口,实现前后端分离,便于后期扩展。使用网络爬虫进行热点新闻文档信息的爬取,使用基于质心的K-Means聚类方法进行文本聚类。使用Echart的地图、折线图、柱状图等形式展示新闻热度和舆论趋势。

采用文献资料法:通过查阅文献资料了解热点话题发现与跟踪技术在实际领域的应用,学习各类API服务的应用。

文本聚类策略:

(1)预先爬取新闻文档信息,形成按天分组的新闻信息数据库;

(2)在按天分组的数据库内进行文本聚类,形成每天的聚类信息;

(3)根据用户选择的时间段,采用K-Means聚类算法将每天的聚类信息进行合并。

热度计算:同时考虑新闻事件的内容和时间因素。

新闻事件的热度=时间频率×数量频率×平均相似度

2 相关技术与模型

2.1网页新闻数据采集技术

网页新闻数据的获取主要包括两方面:一是从互联网上将网页新闻信息采集下来,二是从中提取出我们需要的数据(如标题,发布时间,正文内容等)保存到本地数据库中,方便之后的分析与进一步研究。完成第一步工作使用的方法是网络爬虫,第二步工作是利用网页的DOM结构,从网页标签中提取信息。

2.1.1网络爬虫技术简介

网络爬虫本质上是一个程序或者脚本,被用来模拟访问互联网上的网页,并自动抓取数据和信息。爬虫从配置文件中读取相关配置,例如目标URL列表,过滤规则,爬取规则,结束条件等。一般当目标URL列表为空,或者失败次数过多时会自动停止。

网络爬虫按照结构和功能大致可以分为以下几类:

(1)通用型网络爬虫

这类主要为门户网站搜索引擎和大型web服务提供商采集数据的爬虫,通常有固定的目标和范围,可能是在达到一定时间或者需要爬取的URL列表为空时就停止工作。它对于爬行速度和存储空间要求高,但是不需要对页面进行顺序爬取,适用于搜索引擎广泛搜索的功能。

(2)专用型网络爬虫

专用型网络爬虫专注于某个主题相关的网页内容的爬取,目的性比较明确,对比通用型爬虫,可以筛选出不需要的站点,节省网络资源,但是在爬取过程中需要对内容进行判断是否与主题相关,又导致了爬取效率降低。对特定领域有特定需求的可以使用这类爬虫。

(3)增量型爬虫

这种爬虫是时刻不断的对网页进行爬取,对已爬取的网页进行增量式更新,即只有在网页发生变化时才爬取新内容,如果网页没有变化则不会爬取。这种方式可以有效减少时间和空间的消耗,但是另一方面来说则增加了爬行算法结构的设计和实现难度。

2.1.2网页DOM结构

DOM(Document Object Model,文档对象模型)是一种组织网页页面或文档对象的树形结构。通过文档对象模型,JavaScript可以对整个HTML文档中的所有元素进行访问,并且很方便的对HTML的方法和属性进行增加、删除和修改。网页的DOM结构通过各个分级的节点组织起整个网页结构,从文档节点到元素节点再到文本节点最后到属性节点。正是因为这样一层层的DOM树形结构,才能让我们在获取到一个DOM后能方便的对目标元素及其属性进行操作。

2.2向量空间模型

向量空间模型是一个把文本文件表示为标识空间向量的代数模型。向量空间模型把对文本内容的处理简化为向量空间的中的向量运算,当文档被表示为文档空间的向量时,就可以把文档间的相似度通过这些向量间的相似度的计算来实现度量。我们常用的处理文本相似度的方式是使用余弦距离公式。

对于向量空间模型来说最重要的两个问题是特征项的选择和项的权重计算。

以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图