登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 管理学类 > 信息管理与信息系统 > 正文

基于数据挖掘的社交平台分析毕业论文

 2021-11-07 08:11  

摘 要

在现代社会,互联网的社会平台在生活中变得越来越重要,用户可以分享或发表他们感兴趣的信息,表达他们的个人意见观点和情绪。微博和其他不同的社会平台也记录了各种各样的个人信息用户、个人偏好和一些其他数据。在这些巨大的数据之中隐藏着巨大的潜在价值,本文章将主要以微博作为数据分析平台。分析关于微博用户的信息,以分析社交平台用户对使用平台数据的兴趣以及用户的经验,也使得这些数据对用户和社会都体现出了最高价值。

本文选用是基于模拟浏览器行为的方式爬取微博数据,主要运用关键词抽取技术,处理微博之中出现的特殊词语,来进行数据的分析,具体工作如下:

第一,确定采集的需求字段和分析方式,根据需求判定需要采集的字段,判定采集之中的采集难度,准备采用的采集方式是否可行

第二,结合采集需求字段和采集难度选用采集方式,本文中所需要选取的采集方式为基于模拟浏览器的采集方式,用自动化的采集方法,爬取所需的特别需要的字段,对微博数据进行采集与整理。

第三,结合采集结果对相关字段进行算法分析与统计,采用关键词抽取技术,分析出用户的偏向喜好以及最终对用户的特点描述等信息。

第四,最后,基于上述研究内容,分析设计了一个微博用户兴趣挖掘平台,并通过实验相关算法分析出该数据挖掘情况的结果。

关键词 :微博数据采集、关键词抽取、数据分析

abstract

In modern society, the social platform of the Internet is becoming more and more important in our life. Users can share or publish information that they are interested in and express their own opinions and emotions in various social platforms. Wechat, microblog and other different social platforms also record a variety of users' personal information, personal preferences and other data. There is a lot of commercial value behind these huge data. This paper will mainly use microblog as the data analysis platform to analyze the social situation of microblog users' information, such as publishing, sharing, communication, etc., to analyze the user interest of social platform, which has more important significance for mining social platform data and user experience.

This paper is based on the way of simulating browser behavior to crawl micro blog data, and then use keyword extraction, classification and other processing technologies to analyze and mine the processed user micro blog data. The main work is as follows:

First, determine the demand field and analysis method of collection, determine the field to be collected according to the demand, determine the collection difficulty in the collection, and determine whether the collection method to be used is feasible

Second, the collection method is selected according to the collection demand field and collection difficulty. The collection method in this paper is based on the simulation browser. The automatic collection method is used to crawl the required fields and sort out the micro blog data.

Thirdly, the algorithm analysis and statistics of the relevant fields are carried out based on the collection results, and the keyword extraction technology is used to analyze the preference of users and the characteristics of users.

Finally, based on the above research content, a microblog user interest mining platform is analyzed and designed, and the results of the data mining are analyzed through the experimental related algorithm.

Keywords :Weibo data collection, keyword extraction, data analysis

目录

第一章 绪论 1

1.1目的及意义 1

1.2 国内外研究现状 1

第二章 网络爬虫技术 3

2.1 爬虫分析 3

2.1.1 爬虫背景 3

2.2 关键词抽取技术 4

2.3 平台选择 5

第三章 平台选择与需求分析 6

3.1 服务对象 6

3.2 内容分析 6

3.3 内容需求 6

第四章 技术实施 10

4.1系统设计 10

4.1.1 基于微博api 10

4.1.2 基于模仿浏览器 10

4.2 数据存储 13

4.3 方案对比 14

4.4 代码 14

4.4.1 代码字段 14

4.4.2 代码功能 15

4.4.3 设计问题 17

第五章 数据分析 18

5.1 内容筛选 18

5.1.1 微博用户内容 18

5.1.2 用户原创内容 18

5.1.3 转发用户内容 19

5.2 特征分析 20

5.2.1 用户来源 20

5.2.2 用户分类 21

5.2.3 用户鉴别 21

5.3 模型建立 22

5.3.1 关键词鉴抽取 22

5.3.2 遗忘曲线 23

5.4 可视化分析 24

第六章 结论 26

6.1 关联用户分析 26

6.1.1 关键词分析 26

6.1.2 结论分析 26

6.2 总结 28

参考文献 29

致谢 30

第一章 绪论

1.1目的及意义

随着互联网技术以更加人性化的方式发展,诸如Twitter、Facebook、Microbog、朋友网络、互联网等社会软件出现并且迅速发展,如今在日常交流中人们也开始广泛使用社会软件作为信息工具,在人与人之间有针对性地交换信息,建立了一个由人际关系组成的社会网络结构,也就是关系网。为满足科学和技术发展需要而建立的科学合作网络是科学合作的产物,科学合作网络也是科学合作网络作者之间的社会网络,这些网络由研究人员通过共同建立的关系构成,所谓社会网络是由一系列社会网络组成的社会结构。社会个体产生的社会网络使得利用互联网从单纯的信息搜索和浏览到建立和维护网络社会关系,创造和分享信息在丰富人与人之间的交流,也深刻地改变了人与人之间的关系的形成和发展。自创立以来,国内外研究人员都对该网络都十分感兴趣,到目前为止,该网络的研究趋势并未消失。

互联网技术的飞速发展,也使得网络用户数量急剧增加,网络也越来越进入强调用户体验的时代。根据《中国互联网发展状况统计报告》和《中国互联网信息中心》在2017年公布的数据显示,中国互联网用户已达7.51亿,新浪微博也成为了中国网民生活中主要的社交网站之一,它为大众提供了一个信息交流平台,与此同时也为企业提供了信息交流平台。用户可以通过微博创建共享内容,许多人讨论相同的主题,并可以重定向到其他人对涉及微博的评论。在许多娱乐、生活、金融、教育、体育、时事等领域,这样一系列的行为都是以朋友为中心、以标签、出版这些数据反映了用户与用户兴趣的关系,收集和分析了这些数据,可用于论个性化推荐与精准营销。

1.2 国内外研究现状

有关于社交媒体的研究,可以追溯到上世纪80年代,最开始由Jennifer在1999年提及,并将该研究内容的媒体概念定义为“网络用户用以交换信息和内容的平台”,在这个平台上,用户可以在此分享一些自己的心情,对某些事情的看法,表达出自己的观点,发表一些当前热点信息等等相关,除此之外也支持用户之间的各种信息交换。伴随着web2.0的到来与发展,社交媒体也到了更加蓬勃的发展之后,随即也有更加多的国外学者开始分析在社交媒体平台之中存储的数据而形成的海量信息。这种研究一直持续到2007年才日渐成熟 从2011年至今国外对于社交媒体网络舆情的研究分析的人员和相关成果,都明显加快,各个国家的学者也都逐渐的从以往的理论知识上升到实践。2015年国外对于社交媒体舆情研究已经逐渐成熟,多元化的互联网媒体也成为了人们十分热点的话题。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图