移动用户行为分析及预测研究——以新浪微博为例文献综述

2020-04-15 17:08:30

1．目的及意义

在线社交网络已成为信息时代人们沟通和交流的一个主要平台，国内最大微博平台:新浪微博，注册用户达5亿人，每天产生1亿条微博内容。微博在社交网络中占有重要的地位，已经成为社交网络中重要的媒体之一。研究微博用户的在线行为，对于企业而言可以准确把握用户的兴趣、爱好及特点，可以有效指导企业产品和服务的定位、完善和提高;对于政府部门而言可以通过用户行为及时获得用户对社会的焦点和热点问题的态度，准确判断舆论的热点问题，以便及时采取控制和引导。

在国外，有学者对Twitter微博信息进行了挖掘方面的研究。Atefeh和Khreich探索了从Twitter流中检测事件的技术，根据事件类型、检测任务和检测方法对这些技术进行了分类，并讨论了常用的特性。EvaLahuerta等人结合图论和社会影响理论，对Twitter上的影响者进行调查，发现其tweets的特征，为从业者和营销人员提供了洞见，让他们了解如何通过观察tweet的内容来发现谈论自己品牌的影响力人物。Batrinca和Treleaven也对通过对社交媒体信息抓取的各种软件进行分类，并讨论了社交媒体研究实验计算环境的需求，为各国寻求在其研究或业务中利用社交媒体抓取和分析的人们提供一个参考。与此同时，国内学者也在微博用户行为特征、用户的从众行为、用户影响力、活跃性、文本挖掘及聚类算法等各领域发表了自己的真知灼见。

{title}

2. 研究的基本内容与方案

{title}

2.1 基本内容及目标

本文重点在于研究参与新浪微博热门话题的用户的行为特征，对用户的参与情况及兴趣偏好进行实证分析，构建预测模型，并评估改进该模型，以期对用户行为及新话题的热度进行预测。一方面，通过对拓扑结构网络中用户节点在特定时间段内的活跃程度（耗散行为），参考邻居节点的刺激影响，通过相关分析，模拟微博平台上复杂的社交关系网络（元胞自动机模型）。另一方面，通过对用户发表的微博内容，进行文本挖掘，通过对训练集进行情感分析，采用聚类算法（KNN算法/K-means算法/类中心向量算法/逻辑回归模型/…）建立预测模型，完成数据测试阶段后对预测模型进行评估。（混淆矩阵计算评价指标：准确率P、召回率R、F值、准确率A）最后完成对微博用户行为预测系统的构思设计。

2.2设计（论文）需要重点解决的问题

1）数据的获取。微博话题有多种分类，每个话题下都有参与讨论的用户，选取哪些话题下的信息进行提取，和提取哪些内容（用户发布内容、发布时间、点赞数、评论数、转发数等），需要进一步考察和确认。

2）数据的存储。不同的话题下，参与讨论的用户不同，用户发布的内容各异，且各条内容下的评论、转发以及点赞情况亦不同。基于拓扑网络关系网的各个节点行为各异又相互联系，数据量浩如烟海，如何在存储数据的同时，梳理清楚数据之间的相关性，这是亟待解决的问题。

3）数据的处理。数据量越大，噪声越多，只有科学的对数据进行预处理才能得到准确有效的结果。且微博用户的行为特征量遵从幂律分布，在少数人的影响力较高的同时，大多数人处于冷启动状态，对数据处理的精确性有较高要求。

4）模型的建立。不同的聚类算法各有优缺点，选择哪种更为合理，需要进行多次计算与评估，才能确定更加科学的模型。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码