登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 计算机科学与技术 > 正文

网络舆情分析系统毕业论文

 2022-05-28 10:05  

论文总字数:23254字

摘 要

舆情本身是民意理论中的一个概念,它是民意的一种综合反映 。网络舆情是社会舆情在互联网空间的映射,是社会舆情的直接反映。传统的社会舆情存在于 民间,存在于大众的思想观念和日常的街头巷尾的议论之中,前者难以捕捉,后者稍纵即逝,舆情的获取只能通过社会明察暗访、民意调查等方式进行,获取效率低下,样本少而且容易流于偏颇,耗费巨大。而随着互联网的发展,大众往往以信息化的方式发表各自看法,网络舆情可以采用网络自动抓取等技术手段方便获取,效率高而且信息保真(没有人为加工),覆盖面全。

本系统使用Java语言实现一个基于新浪微博的舆情系统。新浪微博已成为大多数网民日常生活离不开的信息交流平台,因此,此舆情分析系统主要为了抓取人们关于日常生活中的点点滴滴,将大众发布的信息进行抓取、筛选、归纳,从而分析出社会的话题趋势和民生热点。

本文介绍该系统的课题背景及研究意义,同时介绍了该系统实现的目标。系统以Myeclipse作为开发工具,由网络爬虫、分词、词频统计三部分组成。网络爬虫使用深度优先抓取策略,对微博内容进行信息抓取,包含了简单的过滤操作。分词调用Ansj分词,实现对抓取的微博信息分割成词,带有词性的标注。词频统计根据词性实行第二次过滤,并将词语出现的频率统计出来,最后词频高的提取为关键词。考虑到要实现即时的信息抓取,不需要用到数据库来维护信息,不必考虑信息的安全性,信息存取在文本文档txt执行更方便快捷。

关键词:舆情分析 热点 信息

Abstract

Public opinion is a concept theory that comprehensive reflection of public opinion. Public opinion is the social network mapping the Internet space and a direct reflection of social public opinion. Traditional public opinion exists in society, public opinion can only get through social by investigation, opinion ways to get inefficient, small sample size and easy flow to biased, costly. With the development of the Internet, the public often express their views in the way of information, the network can use the network to automatically fetch public opinion and other technical means easy access, high efficiency and fidelity information (no artificial processing), the coverage of the whole.

The system uses the Java language to implement a public opinion based on Sina Weibo. Weibo has become inseparable from daily life most users information exchange platform, therefore, this public opinion analysis system mainly to catch people on daily life .The public release of information capture, screening, induction to analyze the topic of trends in society and people's livelihood hot.

This paper describes the background and significance of the subject of the system, also introduced the objectives of the system implementation. Myeclipse system as a development tool. Web crawler, Word segmentation, word frequency are three parts of this system. Web crawler to crawl depth-first strategy capture micro-blog content information, contains a simple filtering operation. Word segmentation calls Ansj word, to achieve words into word with part of speech tagging. Frequency of word filter implemented according to part of speech, and word frequency statistics appear out of the last word frequency high extraction as keywords. Taking into consideration that information is real-time catch,so no need to use database to maintain information, without regard to the security of information. Accessing to information in a text document txt perform is more convenient.

Keywords:public opinion analysis; central issue; Information

目 录

摘 要 I

Abstract II

目 录 III

第一章 绪论 1

1.1课题的研究背景 1

1.2课题的研究目的 1

1.3舆情分析系统功能及技术介绍 1

1.4各章重点 3

第二章 网页信息获取 4

2.1爬虫技术简介 4

2.2网页搜索策略(爬虫抓取策略) 5

2.3系统中包的交互关系 5

2.4微博信息获取流程 7

2.3爬虫数据处理 8

第三章 自然语言处理与网页分析 9

3.1自然语言及其处理技术简介 9

3.2舆情分析系统的数据分词流程 10

3.3词性的标注 11

3.4分词数据处理 13

第四章 词频统计 14

4.1词频统计算法介绍 14

4.2词的统计与过滤 16

4.3词频数据处理 17

第五章 系统设计和实现 19

5.1爬虫抓取数据的实现 19

5.2数据分词的实现 21

5.3 词频统计的实现 22

5.4 实验数据 25

结束语 29

参考文献 31

绪论

1.1课题的研究背景

在如今这个信息发展时代,各种商务活动社交活动极大拓宽了互联网的应用范围,各种数据与信息数量正在迅猛增长。通信(通话、短信)、电商(淘宝、京东)、搜索引擎(百度、谷歌)、社交网(人人、微博、贴吧)、金融(股票、银行、保险)、车联物联网等都在疯狂滋长着各种各样的信息。新闻媒体,通过网络平台表达社情民意。社会舆论,体现了用户的评论和态度意愿。舆情,可以视为一个风向标。舆情分析,就是针对大众思想的收纳统计整理,发现相关的舆论倾向,发现社会话题。

1.2课题的研究目的

新浪微博已成为大多数网民日常生活离不开的信息交流平台,因此,舆情分析系统主要为了抓取人们关于日常生活中大事小事,将大众发布的信息进行广泛抓取统计,从而分析出社会的话题趋势和民生热点。微博是现今重要的社交工具,大多数的明星歌星、网络红人甚至是政府机关,小到个人,大到各种机构,都开通了自己的主页,发布自己的生活琐碎,或公共信息。然而,大部分信息不能符合每个用户的兴趣喜好,每条微博是否对每个关注该主页的人有用处,需要用户自己来过滤,如同广播一般,需要对信息进行人为的干涉。事实上,每个人发布的信息就是大数据的一部分,这些小数据包含了用户各自的个人爱好、年龄阶段、所在地,想购买的手机,亦或是想看的书籍杂志等等。都是非结构数据的大集合。微博舆情分析系统主要为了抓取人们关于日常生活中的点点滴滴,将大众发布的信息进行抓取、筛选、归纳,在商业方面,可以获取大众的喜好和习惯,在社会方面,能分析出大众题趋势和民生热点。

1.3舆情分析系统功能及技术介绍

舆情分析引擎,是舆情分析系统的核心功能,包括:

1、社会热点发现:通过搜索引擎的关键字分析发现敏感话题。

请支付后下载全文,论文总字数:23254字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图