登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 计算机科学与技术 > 正文

基于微博大数据的网络舆情分析毕业论文

 2021-11-09 09:11  

摘 要

随着Web2.0时代的到来,微博作为一个基于用户关系的网络社交平台,人们可以随时随地通过微博了解感兴趣的内容,评论社会热点话题以及表达个人情感等,从而形成强大的舆论传播力量。本文以微博大数据作为研究对象,研究微博舆情的特征以及发展趋势,帮助舆情监督管理部门掌握网络舆情动态。本文的主要研究内容如下:

  1. 研究Scrapy-Redis分布式技术,实现分布式爬虫采集微博数据;分析微博平台反爬虫机制,以及给出解决微博反爬虫的策略;最后对获取到的微博数据进行数据预处理,包括数据清洗和数据格式转换。
  2. 研究基于深度学习的BERT预训练模型,利用Transformer编码器获取上下文语义信息进行深度学习,实现情感倾向分类;最后设计对比实验证明BERT模型的有效性。

(3)设计并实现微博舆情分析系统,基于Django框架,利用Pandas数据分析工具和前端技术,结合Echarts组件对数据分析的结果进行可视化。

关键词:舆情分析;微博;分布式爬虫;情感分析;BERT

Abstract

With the advent of the Web 2.0 era, micro-blog, as an online social platform based on user relationships, allows people to learn about content of interest,comment on social hot topics and express personal feelings anytime, anywhere,thus forming a powerful force for the dissemination of public opinion.This paper uses microblogging big data as a research object to study the characteristics and development trends of public opinion on micro-blog, and to help the public opinion supervision and management department to grasp the dynamics of online public opinion.The main research in this paper is as follows:

(1)Study Scrapy-Redis distributed technology to realize distributed crawlers to collect micro-blog data; analyze micro-blog platform anti-crawling mechanism and give strategies to solve micro-blog anti-crawlers; Finally, data pre-processing of the acquired micro-blog data, including data cleaning and data formatting.

(2)Study the BERT pre-training model based on deep learning, using the Transformer encoder to acquire contextual semantic information for deep learning and achieve emotional tendency classification; The final design comparison experiment proves the validity of the BERT model.

(3)Design and implement Microblog public opinion analysis system, based on Django framework, using Pandas data analysis tools and front-end technology,combined with Echarts component to visualize the results of data analysis.

Key Words:Public opinion analysis;Micro-blog;Distributed crawler;Sentiment-analysis;BERT

目 录

摘 要 I

Abstract II

目 录 3

第1章 绪论 1

1.1 研究目的及意义 1

1.2 研究现状 1

1.3 本文的研究内容 2

1.4 论文结构安排 2

第2章 基于Scrapy-Redis分布式的微博数据采集 4

2.1 Scrapy-Redis分布式数据采集 4

2.1.1 Scrapy框架 4

2.1.2 Scrapy-Redis分布式框架 5

2.1.3 Scrapy-Redis分布式策略 5

2.2 微博爬虫设计 6

2.2.1 微博站点及页面解析 6

2.2.2 微博爬虫结构 7

2.2.3 反爬虫机制 7

2.3 微博数据预处理 8

2.3.1 数据清洗 8

2.3.2 数据变换 8

2.4 本章小结 8

第3章 基于微博大数据的舆情情感分析 9

3.1 经典的情感分析方法 9

3.2 基于BERT模型的微博情感分析 9

3.3 实验与分析 12

3.3.1 数据集及预处理 12

3.3.2 实验设计 12

3.3.3 实验结果与分析 14

3.4 本章小结 15

第4章 基于微博大数据的舆情分析系统设计 16

4.1 系统总体设计 16

4.2 系统详细设计 16

4.2.1 页面布局设计 17

4.2.2 功能模块设计 18

4.3 数据库设计 19

4.4 本章小结 21

第5章 基于微博大数据的舆情分析系统实现 22

5.1 舆情分析系统实现技术概述 22

5.1.1 前端技术 22

5.1.2 后端技术 22

5.2 舆情分析系统展示 23

5.2.1 舆情总览模块 23

5.2.2 热度分析模块 23

5.2.3 传播路径分析模块 24

5.2.4 参与者分析模块 25

5.2.5 情感分析模块 26

5.2.6 影响力分析模块 27

5.3 本章小结 29

第6章 总结与展望 30

6.1 总结 30

6.2 展望 30

致 谢 31

参考文献 32

绪论

研究目的及意义

随着网络技术的发展,互联网已经成为人们获取和传播信息的主要方式,是人们表达观点、意见和情绪的重要平台。在互联网上,人们拥有平等的参与权和话语权,这种新兴的信息交互方式促进了人们在各种的社交平台上沟通交流,从而形成了公共舆论,对人们的思维方式和看待问题的角度产生了一定的影响。

微博作为一个基于用户关系的信息获取、分享以及传播的社交网络平台,以其丰富的内容、即时信息分享等特点深受用户的喜爱。用户可以将社会热点和生活轶事等以文字(一般是140个字符)的形式或者图片的形式,通过微博平台分享给自己的好友,并进行沟通和讨论。如果用户所发的微博内容受到大量网友的关注并转载,这样微博所表达的信息就会在短时间内传播到世界各处,从而被大众所知。但是微博内容快速传播的同时也面临着一些问题。虽然微博的内容形态日趋丰富多样,但是人们往往只能看到局部的微博数据,很难得知舆论话题的整体趋势以及无法了解舆论话题整体的情感倾向等,从而导致做出片面的判断。而基于微博大数据的舆情分析能够较为全面地反映出舆情的特征和演变的生命周期。微博舆情分析已经成为网络舆情的重要组成部分,是网络舆情监督管理部门的重点研究内容。

本文采用Scrapy-Redis分布式爬虫框架获取微博的真实数据,通过分析微博用户的基本信息、微博的转发、评论等信息,基于微博大数据深度挖掘网络舆情的态势演变和网民的情感倾向,同时实现微博舆情分析系统,将分析出的微博舆情特征以可视化的形式展现出来,从而掌控舆情信息的传播影响、趋势发展以及舆论情绪,为舆情监控提供辅助支持。

研究现状

基于对微博舆情的分析研究,最早是从对Twitter平台研究开始的。从识别微博内容情感开始,Yang Shen[1]通过对微博内容的提取和分析,建立情感语料库,再利用语料库的情感词识别用户的情感倾向。徐定鑫[2]结合基于情感和语义的表达方式,提出了一种新的基于深度学习方法对微博评论的情感进行检测和识别,并为了解决微博评论文本的长度和上下文信息对情感识别的影响,构建了一种融合不同粒度特征的BiLSTM-C模型,对挖掘微博等短评论文本中的潜在语义信息具有显著的意义。汪明亮[3]从具体的微博热点话题出发,研究了舆情传播特征并预测舆情传播热度的趋势,对用户类型进行分类并挖掘分析热点话题的情感倾向。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图