登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 计算机类 > 软件工程 > 正文

基于评论时间特征的虚假评论检测方法外文翻译资料

 2022-08-09 08:08  

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


摘要 在线检测和评论已经成为销售决策和购买决策等各种决策过程的重要资源。因此,我们可以得出这个结论,网上评论的真实性对买卖双方都至关重要,因为虚假评论会因误导性的描述和欺骗性的销售而影响客户的决定,这会给无辜的顾客造成经济损失。于是,虚假审查检测引起了人们的广泛关注。然而,大多数购物网站只专注于处理有问题的检查和评论。本文提出了一种基于产品相关记录而不仅仅只是基于检查和评论的异常评审检测方法。我们首先使用爬虫去爬行亚马逊上的中国数据集并分析了这些数据的各种特点,揭示了每种产品的评论记录对于正常产品而言是相似的。在该方法中,我们首先将产品的历史记录提取到一个时间特征向量中。然后在这个基础上,提出了一种基于检测和评论的孤立森林算法来检测产品的异常评论。我们将验证该方法的有效性,并将其与现有的基于亚马逊去爬行中国数据集的时间异常点检测方法进行相关的比较。我们还将研究评审记录参数的选择对这个方法的影响。

关键词:虚假评论;产品推测;评论记录;孤立森林算法。

1. 介绍

近年来,许多研究者开发了利用文本挖掘技术检测虚假评论的方法。大多数这样的工作集中于一次分析一个评论或一个评论的人,而没有考虑多个评论和多个评论的人之间的潜在关系[1,2]。韩淞等人。分析突发性的评论,从而找出评论和评论人的异常行为[3]。此外,还分析了虚假评论人员的行为,以开发可能的审查模式,从而发现虚假的评论[4,5]。

在第二节中,我们简要回顾了特征网络学习的一些相关工作。在第三节中,我们对历史记录和异常行为进行了实际的证明分析。在第四节中,我们描述了基于产品虚假的评论检测方法的孤立森林算法,在第五节中,我们使用真实的数据集评估了所提出的方法,并将其与几种基线方法进行了比较,以此来证明我们的方法的各种相对而言的优势。最后,在第六节中,我们对本文进行了总结,并指出了一些对未来研究方向的预测。

2. 相关工作

2.1 垃圾邮件检测

近年来,我们积极的研究了网络垃圾邮件或电子邮件等垃圾邮件。例如,提供了一个关于网络垃圾邮件检测的调查[6]。还研究了电子邮件等一系列垃圾邮件的检测[7]。也深入研究了博客垃圾邮件和网络垃圾邮件[8,9]。对于审查垃圾邮件,朱娜菲等人,研究了虚假评论的行为,并提供了一些可能的垃圾邮件模式[5]。

2.1.1 时间序列异常点检测

时间序列分析是离群点检测中最有效的方法之一。这些方法依赖于相似函数的定义来度量两个序列之间的相似性,并且使用聚类来检测其中的异常值。通过将所有数据样本视为时间序列特征向量,我们可以对这些样本进行聚类,距离所有聚类最远的数据样本获得最大的离群值得分[10]。

参数化模型还可用于以无监督(其中没有明确说明异常实例,并基于基础数据构建总结模型)的方式检测异常值,...此外,隐马尔科夫模型是能解释这个现象的,但不能很好地扩展到模式复杂的数据中去。与此同时,使用隐马尔科夫模型进行离群点检测的方法也已经被提出了[11-13]。

2.1.2 流数据的离群点检测

还有一类方法,是对流数据执行离群点检测,其中的方案比常规的离群点检测会更加复杂,当然难度也会更大。

在处理流数据时,需要不断发展预测模型,在新数据到达时更新其中的参数或模型组件。例如,这些学者提出了一种在线聚类方法来检测异常产品[14,15]。与此同时,而另一些作者提出了一种使用动态贝叶斯网络对随时间演化的数据样本进行建模的方法[16]。通过增加新的状态变量,可以得到系统的状态。

本文提出了一种基于流异常检测和时间序列异常检测思想的异常检测方法,这个方法其中了其他方法的优点,摒弃了他们的缺点,因此在竞争中会更有优势。

3. 产品评审趋势分析

在本节中,我们将分析从亚马逊抓取的购物评论数据。通过分析,我们可以清楚地看到不同产品在检测和评论上的不同之处。

3.1 产品评审总趋势

在本研究中,我们使用亚马逊中国数据集。这些记录评论的数量正在逐年增长。2006年,只有很少的评论被记录了下来。随着时间的推移,越来越多的检测和评论被记录下来。

表1列出了审查数据的参数,其中数据集包含166624个产品和5055个用户,审查期为2006年3月至2012年8月。总共有1205125条评论。

表1。虚假审查数据集

问询处

价值

产品

166,624

用户

5,055

时间段

2006年3月至2012年8月

评论次数

1,205,125

频率

每天审查507.2

3.2 产品评论的趋势

我们选择两个产品并分析评审的时间模式,如图1所示。对于图1(a)中的产品,我们可以相当清楚地看到趋势模式不是连续的。在图1(c)中,我们总结了可疑评论的数量,而在图1(d)中,我们绘制了正常评论的数量。

(a) 可疑审查 (b)正常审查

(c) 可疑评论 (d)正常评论

图1。两种典型产品的评审模式

我们方法中的基本数据单元是产品。我们专注于研究所有产品的评审模式,以获得异常产品。由于我们的方法是一种无监督的评论检测方法,虚假的检测更可能与其他虚假的评论一起发生,并且在一个特定的时间段内产品的数量可能非常大。根据这一特点,我们只收集一天内的评论作为我们对一个产品的单元描述。例如,对于产品Pi,评审模式的描述定义为:

(一)

其中i表示日期,因此i1表示数据集中有检测的第一个日期(2006年3月),ie表示数据集中有检测的最后一个日期(2012年8月),Vpi是表示产品Pi检测记录的组合特征向量。向量中的每个元素都是日期检测指标,日期审查指标Pij表示在某个日期i1中给出的审查次数。

3.3 基于评论的时态特征提取

我们静态地查看产品评论,每个产品的评论记录可以作为一个N维向量进行处理。时间特征的一般形式可以描述为:

式中,表示产品Pi在时隙t中的检测次数,并且N是要处理的时隙总数。

由于检测的数据范围从2006年到2012年,如果我们将时间段定义为一年,那么总共将有七个时间段。定义具有相同维度的所有产品也很重要。例如,如果时隙为M天,总共有N个时隙,则z(t)为:

其中t是特征的t时隙,下标t*M m;表示特定回顾的时间。

然后,我们可以使用以下这个矩阵描述所有产品:

其中P是产品总数。孤立森林算法可用于处理各种各样的数据。

3.4 离群点检测的孤立森林算法

对于时间特征向量Z,我们建立了初始的离群点检测模型,根据数据集Z的自举采样建立了孤立树,集合检测模型E由L个子树组成,即:,

它是根据第i个时隙中的数据构建的。

在该算法中,i 的森林由多个隔离树组成,即子树。我们知道,子树是通过随机选择产品时态回顾特征和特征值来创建的[17]。在隔离树的每个节点上,根据选择的时态检测值将实例集分成两部分。一般来说,具有异常检测的产品是那些具有检测记录或检测值的产品,这些记录或检测值与正常产品非常非常的不同,并且比正常产品更加容易划分。为了缓解孤立森林建设过程中随机性特征的影响,我们计算了孤立森林产品的平均深度,并将其作为产品的异常得分。得分越低,产品与正常产品的距离越远,这使得它很可能是一个离群产品。图7进一步说明了算法。

综上所述,我们使用孤立森林算法来建立基于产品检测记录的孤立森林。同时,应用孤立森林算法可以得到异常值得分。

异常得分用于确定产品是否为异常产品。对于产品Pi,可以使用公式(6)计算它的异常得分。

在这里

在式(6)中,N表示算法1中的采样大小,hi(x)表示第i个子树的长度,E(h(x))是子树集合中h(x)的平均值,c(N)是h(x)的平均值,对于给定的乘积Pi,异常值得分为S(zpi,N)。一个不正常的高值异常得分视为异常值,但是低值异常得分视为正常样本。高异常分数实际上表明产品检测模式与正常产品在时间上是不同的。因此,不正常的高值异常得分被认为很有可能对应的产品由虚假检测和评论组成。因此,我们可以使用该算法和公式(6)来分析基于异常得分的产品异常评论的可能性。.

4. 实验与分析

我们使用第3节中描述的可用数据集进行了一些实验。通过实验,我们首先将我们提出的方法与几种基准线上的虚假评论推测方法进行比较,以证明我们的方法的有效性。我们还通过研究,证明了我们的方法在不同时间参数设置下的性能会有所不同的表现,总的来说,我们的方法确实比以往的方法有了很大很大的进步。

4.1 度量指标

为了评估我们的方法,我们用地面真值异常值标签和预测的异常值标签来量化性能。我们使用这两个指标来衡量我们的方法的性能。

4.2 实验结果的对比分析与评价

在本节中,我们使用三种基准线上的方法,即自回归移动平均模型、LOF函数和支持向量机,来检测第3节中描述的数据集中的异常产品。因此,我们遵循相同的重新爬取策略来检测每个产品是否被视为异常产品。对于每一个产品,低异常分数被视为异常,这就使得产品具有异常的商业行为。所有方法的准确度结果如图2所示,结果表明我们的方法可以更好地检测虚假评论。较低的准确度意味着检测方法不太有前途,而较高的准确度则证明我们的检测方法能更成功地检测到虚假评论,比其他方法有更好的,更有前景的未来。

图2。精度比较

如图2所示,我们的方法比其他三个基准线上方法执行得更好。自回归移动平均模型的精度只能达到0.77,这可能是由于时间序列的性能变化很小造成的。LOF函数是三种基线方法中最具竞争力的一种,这说明离群值也可能发生在局部。基于孤立森林的方法能很明显的表现出它优于所有其他的方法。

我们还将我们的检测方法与图3所示的三种基线方法在效率方面进行了比较。结果表明,孤立森林方法可以显著减少训练所需的时间,基于树的方法在训练阶段和评估阶段都可以更快速的进行。

图3。效率比较

5. 结论

本文研究了网上购物网站的点评记录,提出了一种新的检测产品虚假评论的方法。这种检阅异常值检测方法通过检测和评论的时间趋势来检测异常值产品。这样的观点使我们的方法比现有的一些方法更有优势。为了验证本文方法的有效性和有效性,我们还将该方法与几种时态离群点检测方法进行了比较。我们的实验并没有明确指出,在什么时候,一个产品参与虚假检测和评论的概率最高,但我们相信这将是未来另一项非常有趣的工作。本文最终得出的结果虽然在一定程度上并没有特别完善,但是总的来说,在检测虚假评论方面也做出了一定的贡献,我们希望在不远的将来,我们并没有解决的问题会得到一个完美的解决方式。希望读到这篇文章的读者都能继续思考下去。

致谢

本文的工作得到了国家自然科0学基金(61602456)的资助,在此献上我们最最诚挚的感谢。

参考文献:

[1] Streitfeld, D。虚假的评论,真正的问题。纽约时报。http:// query. nytimes. com/ gst/ fullpage.html,2012年。

[2]Rayana S.;Akoglu L.。集体意见垃圾邮件检测:连接审查网络和元数据。第21届ACM SIGKDD国际知识发现和数据挖掘会议记录,2015年,第985-994页。

[3] Catal C.;Guldan S.《基于多分类器的产品评论管理软件》。IET软件,2017,11(3):89-92。

[4] Han S;Prince J;Zuo L;Carass A.基于隐马尔可夫模型的小脑小叶分割异常点自动检测。分子、结构和功能成像医学应用国际会议论文集,2018

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238736],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图