一种改进的基于相似度的协同过滤方法外文翻译资料

2022-08-23 15:29:08

英语原文共 18 页，剩余内容已隐藏，支付完成后下载完整资料

研究文章

一种改进的基于相似度的协同过滤方法

Junmei FengID1*, Xiaoyi Fengs1, Ning Zhang1, Jinye Peng2

1 School of Electronics and Information, Northwestern Polytechnical University, Xirsquo;an, Shaanxi, China,

2 School of Information Science and Technology, Northwest University, Xirsquo;an, Shaanxi, China

*18710993442@163.com

摘要

推荐系统广泛用于电子商务领域，在指导客户做出明智的决策中起着重要作用。尽管推荐系统中有许多算法可用，但是协作过滤仍然是最常用和成功的推荐技术之一。在协同过滤中，相似度计算是主要问题。为了提高推荐的准确性和质量，我们提出了一种改进的相似度模型，该模型考虑了相似度的三个影响因素以最小化相似度计算的偏差。与传统的相似性度量相比，我们提出的模型的优势在于它充分利用了评分数据，解决了共同评分项目的问题。为了验证所提出算法的效率，对四个数据集进行了实验。结果表明，所提出的方法可以有效地提高推荐系统的偏好，适合稀疏数据

引言

随着互联网技术的飞速发展，互联网上的信息量呈指数增长。克服信息过载的问题 [1]，推荐系统（RS）[2, 3]已被广泛用于我们的日常生活中，根据客户的行为数据推荐感兴趣的信息或提供个性化服务，从而帮助客户从海量数据中快速获取所需信息。最近，RS已成功应用于各种领域，例如音乐[4]，电视节目 [5]，电子商务 [6]，新闻[7]，出租车[8]，旅游业[9]，社交媒体 [10]. 在RS中，通过不同类型的算法提出建议。作为RS的核心和关键部分，推荐算法[11, 12]确定RS的类型和性能。通常，推荐算法分为四个主要类别：

bull; 人口统计过滤方法[13]，这是基于以下假设：具有相似个人属性（年龄，性别等）的客户可能会有相似的偏好。计算简单，易于实现实时响应。由于喜好不同具有共同个人属性的客户可能有所不同，此方法的主要问题之一是可靠性低。

bull; 基于内容的过滤方法[14, 15]，它利用了过去的用户选择。因此，将推荐与用户先前购买或喜欢的商品相似的商品。

bull; 协同过滤（CF）方法[16]，根据用户对这些项目的评分提出建议。具有相似评级的用户称为最近邻居，如果找到了最近邻居，则通过邻居预测用户的未评级项目，然后，RS向用户推荐具有较高预测评级的项目。

bull; 混合过滤方法[17]，它结合了使用不同知识来源的先前方法来解决这些算法中的每一个算法中存在的问题。

在这些推荐方法中，CF通常被认为是RS中最常用和最成功的推荐技术之一，尤其是电子商务网站，例如Amazon.com，Netflix和Google News [18].

协作过滤推荐算法通常分为两类：基于内存的算法[19,20]和基于模型的算法[21,22].主要区别在于收视率的处理。基于内存的算法包括基于用户的协作过滤（UBCF）算法[20]和基于项目的协作过滤（IBCF）算法[23].UBCF算法着重于获取目标用户的最近邻居并预测其未评级项目，相反，IBCF算法的目标是项目。在本文中，UBCF用于说明改进的相似性方法。基于模型的算法[24]需要根据收集的评级建立一个代表用户行为的模型，然后才能预测未评级的项目。

上面提到的CF中的相似度值需要一个相似度函数来度量，一些常用的相似度度量包括余弦（COS），Pearson相关系数（PCC），加权Pearson相关系数（WPCC）和Jaccard。一旦选择了相似性方法，就可以向用户提出建议。一般来说，以上措施可以很好地反映两个用户或物品之间的相似度。但是，当数据集稀疏时，推荐的准确性非常低。为了解决这个问题，近年来已经提出了很多相似性度量，但是改进并不明显。

在本文中，我们的目标是设计一种适用于大多数推荐系统的相似方法，而与数据集的稀疏性无关。基于以上考虑，本文提出了三个相似性影响因素，以提高建议的准确性和质量。此外，对提出的相似性算法进行了归一化。

本文的结构如下。第2节报告了协作过滤推荐领域中的一些相似度计算方法。第三部分详细描述了拟议的相似性模型。第4节介绍了不同数据集中的实验结果。第5节讨论了我们提出的模型的结果和优点。最后，第6节对结论和未来的工作进行了高层描述。

相关工作

在本节中，我们简要总结相似度度量的相关工作。值越大，相关性越高。在以下公式中，我们假设用户和项的集合为U = {u₁,u₂,。。。,u_m}和I= {i₁,i₂,。。。,i_n}。R= [r_ui]^mtimes;n用于表示用户项目评分矩阵。在这里，用户数和项目数分别为m和n，r_ui表示用户u对项目i的评级。

COS [25]相似度用于度量两个评级向量（用户或项目）之间的角度。它的相似性经常在CF推荐系统中使用。用户u和v之间的COS相似性公式定义为等式（1）:

但是，COS不考虑用户的评级偏好。换句话说，即使他们非常喜欢这些项目，有些用户总体上倾向于较高的分数，而另一些用户则倾向于较低的分数。调整余弦（ACOS）[26]相似度度量通过减去平均评分来解决此问题。

PCC[27]在共同评分项目或用户的集合上定义。WPCC [28]基于PCC。PCC和WPCC的公式在等式中描述(2)和(3)分别。直观地，当合计项目的数量小于阈值时等式（3），相似度值小于PCC的结果。相反，如果该数目是阈值或更大，则相似性度量仍然是PCC。在实验中，阈值通常设置为50。约束皮尔逊相关（CPCC）[29]是PCC的一种修改形式，其中使用绝对参考代替平均等级。当co-rated值在同一侧时，可以增加相关性。PCC的另一种修改形式是基于 Pearson相关系数（SPCC）的S形函数[30]与PCC相比，这会削弱相似性。

另外，Jaccard [31]是CF中另一种流行的度量。此度量仅考虑两个用户评分的项目数，而不考虑评分，这表示共同评分的项目越多，相似度就越高。因此，在某些情况下，相似性度量是不准确的。与Jaccard不同，均方差（MSD）[20]考虑更多有关绝对额定值的信息。但是，该措施的应用不是很广泛。Jaccard和MSD的公式如等式所示(4)和(5)分别。

为避免传统措施的弊端，在[32]中，Bobadilla等提出了一种结合Jaccard和均方差（JMSD）的方法，其中使用Jaccard来捕获共同评估项目的比例，而使用MSD来获得评级信息。JMSD的公式表示为等式（6）.

在[33]，Bobadilla等提出了另一种称为MJD（Mean-Jaccard-Differences）的相似度方法，该方法结合了六个相似度度量以获得全局相似度。每个度量的权重是通过神经网络学习获得的。但是，这两种措施在数据稀疏的情况下不起作用。

安（Ahn）提出的另一种经典方法使用了三个相似性因素，即接近度，影响力和普及度，称为PIP（Proximity-Impact-Popularity）[26].尽管PIP可以缓解冷启动问题，但缺点仍然很明显。首先，相似性度量标准不考虑绝对评分，也忽略了共同评分项目的比例。其次，该方法不考虑每个用户的总体评分偏好。最后，该公式未标准化，与其他方法结合使用也不方便。基于以上考虑，Liu等人在[20]中提出了一个新的启发式相似模型（NHSM）.此方法基于PIP，成功克服了PIP方法的不足。NHSM的公式表示为等式（7）.

在[34]，Polatidis等。提出了一种多层次的推荐方法来提高RS的质量。此度量将相似度划分为不同的级别，并为每个级别增加了约束，最终相似度值取决于PCC和共同评估项目的数量。相似性度量将不同的常数添加到不同的级别。共同分摊的项目越多，常数越大。

Patra等提出了一种基于稀疏数据中基于Bhattacharyya系数存储的CF的新相似性度量，该度量使用了一对用户在[35].除此之外，Zhang等人。提出了一种新颖的数据结构并设计了线性算法来计算[36]，最终目标是缩短评估时间并提高RS开发的效率。此外，李等。在[37]，用于提高所有现有CF算法的准确性。通过最大似然估计获得偏好模型。在最近的工作中，Sun等人。提出了一种新的三角形相乘提卡（TMJ）相似度度量[38]，类似地将三角形相似度和Jaccard相结合，以提高推荐准确性。TMJ在等式（8）.

总之，文献为CF措施的成功实施提供了丰富的证据。但是，现有的相似度方法仍然存在一些局限性。首先，CF措施遭受严重的数据稀疏[39]和冷启动[40] 问题。实际上，用于CF的用户项目评分矩阵非常稀疏且没有足够的评分，因此 CF推荐系统的性能受到数据稀疏性的挑战。冷启动问题是在新用户或新项目刚进入系统时发生的一种极端情况，并且由于缺少信息而很难推荐。在上述问题中，本文重点讨论数据稀疏性问题。我们工作的主要贡献在于，我们提出了一个新颖的相似度模型，以最小化相似度计算的偏差并提高推荐的准确性，并且在数据稀疏的情况下，我们的模型仍可以保持较高的推荐准确性。

拟议的相似性模型

本节首先介绍我们提出的相似性模型的动机。然后，我们对提出的相似性模型进行详细描述，并分析其时间复杂度。最后，我们提出了适合我们工作的预测措施。

3.1 提出的相似性模型的动机

从上一节的描述中，我们注意到传统的CF方法严重依赖于共同评级项目。然而，当不存在合计项目时，不能执行相似度计算，这被称为合计项目问题。因此，我们提出了新颖的模型来解决这种情况。

我们提出的相似性模型的动机在于三个方面：首先，我们的模型考虑了所有额定项目，而传统的CF方法仅考虑了共同额定项目，这占额定项目的一小部分。其次，即使对于极为稀疏的数据集，所提出的模型也可以解决数据集中的计价项目问题。第三，相似度模型不仅取决于所有评分项目，还取决于用户的整体偏好。

3.2协议算法

本文中的推荐算法通过三个步骤为用户提供推荐：最初，提取由用户的交互行为生成的评级，并将其存储到数据库中。然后，采用k最近邻（KNN）[41]使用预测目标用户的未分级项目的分级。KNN的难点在于如何计算目标用户与其邻居之间的相似度。提出了一种改进的相似度模型以最小化相似度计算的偏差并提高推荐的准确性，这将在下面介绍。最后，将将具有最高预测收视率的前N个项目推荐给目标用户。

基于内存的CF方法的主要部分是相似度计算，可以根据用户对或项目进行计算。为了评估提出的相似性算法，本文对UBCF进行了修改。为了提高稀疏等级数据下相似度度量的适应性，提出的相似度模型由S1，S2和S3这三个影响因素组成。此外，S1用于定义用户之间的相似性。引入S2来惩罚比例较小的用户对。采用S3加权每个用户的评级偏好。该框架在等式（9）.

定义相似度S1以测量两个用户的评级向量之间的角度。角度越小，两个用户之间的相似度越高。与传统的COS相似度方法不同，S1将角度计算问题从原始|I_ucap;I_v|到|I_ucup;I_v|的尺寸空间维度空间。即，该计算将两个用户的共同评价项目的集合转换为两个用户的共同评价项目的并集，从而充分利用了评价数据。但是在RS中数据集的稀疏性直接决定角度计算的准确性。如果数据集的稀疏度低，则将基于所有现有的评分数据来计算两个用户之间的相似度。相反，如果稀疏度很高，则任何两个用户之间几乎没有共同评级的项目，并且传统的相似性方法不起作用。在这种情况下，我们在新的评分空间中构造了共同评分项目，并用平均评分替换未评分项目的评分，以提高算法的准确性。根据数据集的稀疏性，将S1分为两个级别。S1的公式定义为等式（10）.从公式可以看出，分母比传统的COS度量更大。

其中mu;_u和mu;_v分别是用户u和用户v的平均评分。在稀疏的情况下小于阈值rho;，则在|I_ucup;I_v|维度空间。在新的评分空间中，零表示用户对未评分项目的评分。与传统的COS相似度方法仅使用共同评分项目的评分数据不同，我们提出的相似度S1使用两个用户的全部评分数据。在其他情况下，该空间中未分级项目的分级将替换为用户的平均分级，然后计算相似度。

在推荐系统中，不同用户对之间的共同评分项目的数量差异很大。评分项目越多，从评分数据中提取的有价值的信息就越多，相似度计算结果将更加准确。因此，共同评定项目数的比例是一个非常重要的影响因素，其定义是等式（11）. 如果共同定价项目的比例较小，则S2的值将较低。

在我们的模型中，S3用于指示每个用户的评级偏好。由于不同的用户具有不同的评分习惯，因此某些用户喜欢给予较高的评分，而另一些用户可能更喜欢较低的评分。因此，应考虑评级偏好。采用S3修改我们提出的模型。S3的公式定义为等式（12）[19]，由平均评分和标准方差确定。

因此，我们基于RS的数据稀疏性将我们提出的相似性模型分为两个级别，用户u 和

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[237434]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码