社交媒体中的意见挖掘：

在网络中建模，模拟和预测政治观点

摘要

经济实惠且无处不在的在线交流（社交媒体）为思想和观点的流动提供了手段，并为社会的转型和凝聚力发挥着越来越大的作用，但对于在线观点如何出现、传播和获得动力却知之甚少。为解决这一问题，提出了一种基于社交媒体内容分析和社会物理系统建模的意见形成框架。基于先前的研究和自己的项目，描述了在线意见跟踪和模拟的三个构建模块：（1）主题、情感和意见的实时自动化检测（2）信息流建模和基于代理的模拟（3）意见网络的建模，包括特殊的社会和心理环境，如情绪、媒体和领导者的影响、改变社交网络等。最后，提出了三个应用场景来说明框架并激励进一步的研究。

关键词：

管理；测量；设计；实验；意见挖掘；社交媒体；政策建模

1. 引言

意见研究的目标是根据利益相关者群体或公众的观点，性格、情绪、态度和期望来确定新兴的社会趋势。意见研究的一个主要应用是决策领域，以便更好地预测政策措施的可能影响，并更好地传达预期的利益和后果。基于真实世界在线通信的意见形成模型使得能够模拟和预测区域内或跨区域的特定政策问题上的通信模式的演变以进行全球比较。

网络出版的民主化导致了互联网上表达的观点数量激增。与此同时，公民正越来越积极地参与政策问题，获得更多权力，并且在与传统机构的关系中要求更高，而政治俱乐部、组织和社论的会员人数却在下降（Inglehart＆Welzel，2005）。

对博客圈的研究确定了对网络上发现的同伴建议和建议的“渴望”和依赖，这种信息饥饿在政治领域非常明显。例如，通过大规模调查，研究人员能够推断出超过6000万美国公民的动机，他们收集了有关2006年选举的在线信息并交换了意见（Rainie＆Horrigan，2007））。对于这些公民中的三分之一，在线参与的动机是从社区内部获取观点，而另外三分之一的动机是从社区外获取观点。另外三分之一是受到其他公民的支持或评级的推动。政治领域似乎特别适合调查博客圈中的意见形成，因为“博客作为民主实践”本质上与更广泛的政策过程有关（Griffiths，2004）。

经济实惠和无处不在的信息和通信技术（ICT）促进跨境思想和意见的交流。推动结构转型是将个人观点和意见与他人联系起来的信息流，从而创造了网络社会（Castells，1996）。可以说，信息通信技术支持的思想和观点流动对于信息社会的转型和凝聚起着至关重要的作用 - 但对于在线意见如何出现，分散和获得动力却知之甚少（Christakis＆Fowle，2009））。与此同时，互联网提供了来自在线社区的大量数据，使人们可以在线“原位”观察和研究社交互动。有人可能将互联网社区视为一个巨大的社会和心理实验室（Skitka＆Sargis，2006）。因此，在这项工作中，我们遵循一个总体研究问题：

在哪些方面可以利用来自各种社交网络资源的在线内容，为决策者提供有关组成意见，新兴趋势以及政策举措的可行性和潜在影响的信息？

在下文中，我们通过提出意见挖掘，模拟和趋势理解的构建模块来解决这个问题：

bull;社交媒体内容分析：跟踪和分析大量在线论坛，博客或其他公开可用的文本流。文本理解算法提取与决策者所针对的主题相关的语义信息。特别是，重建了在线表达意见的个人的社交网络，并且对于每个分析的文本，识别主要子主题，以及相关的情绪（正面/负面意见）;

bull;意见形成建模，模拟和预测：对提取的数据进行意见扩散模型估计，以恢复影响图并模拟当前和未来意见的趋势。每个观点都由一个概念（或子主题）和一个扩散率来表示，而个体则由受影响的兴趣，影响和倾向来表示;

接下来的两节将更详细地描述这些组件。然后，第4节介绍了自然适合拟议意见挖掘框架的应用场景和现实示例。最后，我们讨论了实际的实施选择和未来的研究方向。

社交媒体内容分析

在线内容中的主题和意见检测有助于识别新兴的社会趋势和分析公众对政策的反应。超出当前网络搜索的下一步是对不同类型，复杂性和结构的信息实体进行排名，而不是仅文档（例如网页）。能够检索特定实体而不是整个文档允许构建用于主题和意见检测的创新应用（例如，提取评论）。由于语义Web标准和方法的激增，自然语言处理中机器学习方法的兴起，机器学习算法的数据集的可用性，以及评论聚合网站和用户评级的传播，这些可能性成为可能。内容。主题和意见检测提供了一种快速可靠的方法，可将一组未标记的文档转换为结构良好的知识库。目前有两种方法相互无关：

bull;自然语言处理（NLP）：基于文本和意义的向量表示的意义的隐式表示，其使得能够定义文本之间的相似性和正面或负面意见的程度。这些模型的结果准确但难以解释。

bull;语义Web方法（SW）：基于语义注释的域的显式表示，其通过关键字或标签将文本映射到域本体。基于这种方法的有效推理的大规模例子很少。

如今，很少有混合系统结合两种方法的优势。我们提出了一种基于鲁棒方法的方法，该方法使用隐含的意义表示（NLP），并使用语义Web（SW）的轻量级本体来扩展它，以提高性能并允许更细粒度的意见分析。

2.1 意见检测

重点是自动识别和提取文本和多媒体的意见（Chesley等，2006）。该组件的动机基于为决策者提供支持，以自动跟踪对在线媒体和用户生成内容中某些主题的态度（Lin，Wilson，Wiebe，＆Hauptmann，2006）。例如，意见检测已被提议作为电子规则制定中的关键使能技术，允许自动分析人们提交的关于未决政策或政府监管提案的意见（Allen等，2005，Kwon等，2006，Shulman）等人，2006）。

意见挖掘的目标是以更加结构化和明确的形式创建包含在线意见的知识库。数据由NLP引擎基于语法分析器和机器学习技术处理，该技术检测句子的哪个部分对应于意见的表达以及哪个特定主题。对于每个文本，所识别的意见被表示为文本中提到的对（修辞概念，关键词）的列表。修辞概念是由语言学家先验地定义的。首先，词汇表将简化为四类，例如“积极意见”，“中立意见”，“否定意见”和“信息”（例如质量新闻等类似事实的信息）。

2.2 情绪分析

情感分析将审议与情感部分（意见或态度与情绪相关）结合起来。与态度分析类似，基于计算机的情绪识别需要先进的分析工具。虽然基于词典的解决方案提供了某种程度的基本情绪检测（例如，通过选择同意，确认词或检测脏话和诅咒），但它们未达到读者的人类认可，因为他们经常无法识别更微妙的表达情感形式：幽默，讽刺，讽刺，挑衅。

使用各种分类算法，情绪分析已经成为研究的主题（Allen等人，2005，DeSteno等人，2004，Prabowo和Thelwall，2009，Theunis等人，2010）。已经证明这些方法是对基于因特网的社区的有效分析（Chau和Xu，2006，Chmiel等人，2011b，Derks等人，2008，Mitrović等人，2010，Thelwall等人，2010）。还有一些致力于此类通信网络建模的工作以及基于代理的模型和观察的比较（Chmiel等，2011a，Ding和Liu，2010，

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码