使用Web使用数据挖掘的个性化在线销售外文翻译资料

2021-12-14 22:53:54

英语原文共 11 页

使用Web使用数据挖掘的个性化在线销售

张学军，约翰爱德华兹，珍妮哈丁

摘要

实际上，每个拥有零售业务的大公司都有自己的网站和在线销售设施。本文描述了一个利用Web使用数据挖掘技术来识别客户互联网浏览模式的工具集。然后，这些模式用于支持用于在线销售的个性化产品推荐系统。在架构内，科荷伦神经网络或自组织映射（SOM）已经过培训，可以离线使用，发现用户组配置文件，并实时检查活动用户点击流数据，与特定用户匹配组，并推荐适合单个用户的一组独特的产品浏览选项。我们的工作表明，这种方法可以克服这些类型的系统中常见的可伸缩性问题。我们的结果还表明，由SOM预测模型驱动的个性化推荐系统能够产生一致的推荐。

关键词：数据挖掘;神经网络;SOM神经网络；互联网销售

介绍

制造业越来越多地寻求通过个性化销售来吸引客户群。这可以通过帮助潜在客户识别适当的产品，或者通过定制产品来满足特定的客户要求。在任何一种情况下，如果潜在客户能够快速，轻松地满足他们的要求，他们更有可能进行购买。因此，几乎所有拥有零售业务的大公司都有自己的网站和在线销售设施，其中网络个性化已成为必不可少的元素，改善了客户体验并鼓励了客户的忠诚度。

许多在线销售网站的一般问题是“选择太多”。找到合适的产品会变得非常耗时，并且可以减少在线服务的好处。网络个性化旨在“为用户提供他们想要的信息，而不期望他们明确要求”.在[2]，提出了个性化推荐应用的讨论，其中当代系统的典型示例包括在线供应商www.Amazon.com和www.ebay.com.他们的方法基于观察人们的网站导航行为并寻找反复出现的主题。然后，他们可以在回访网站时提出符合特定客户偏好的产品推荐。但是，这种建议可能没有用，因为在许多情况下，当用户返回网站时，他们正在搜索不同类型的产品。

在我们的工作中，网络个性化意味着为个人提供量身定制的信息，以便更轻松地导航网站，从而轻松找到满足客户要求的产品。这种个人支持基于他们当前（而不是之前）的导航行为，该导航行为是在他们当前访问期间实时发现的。数据挖掘有可能成功识别客户导航模式。然而，它也是计算机密集型的，并且不能提供令人满意的（实时）响应时间和当今的处理能力。为了克服这个问题，我们的工具集使用了一种体系结构，该体系结构结合了：（1）离线模式发现模块的好处，可以长期学习多个用户，具有以下功能：（2）实时产品推荐模块，用于个性化任何当前活动访问者的网站访问。离线模块使用数据挖掘技术从多个匿名网站访问中识别缓慢变化的客户浏览模式。然后，这些模式用于支持标识的个性化客户产品推荐模块实时客户导航行为，并将其与发现的离线模式相匹配。这种两阶段架构如图所示。

2. 数据挖掘

数据挖掘最近已成为一个不断发展的多学科研究领域。它结合了数据库，机器学习，人工智能，统计学，自动化科学发现，数据可视化，决策科学和高性能计算等学科。我们的观点是，数据挖掘技术可用于提供帮助用户在网络上查找相关信息所需的知识，通过自动分析当前用户导航并将其与多用户购买行为的数据挖掘知识相结合。

当客户访问网站时，他们会以网络日志的形式留下痕迹（表明他们的要求）。数据挖掘提供了在这些日志中自动发现知识的工具，以实现当前客户导航行为的预测建模[3].此外，这种类型的系统可以提供对广泛客户群的更好理解，通常有助于定义客户群的类型。这对于支持战略规划活动具有潜在的有用知识，通常用于针对特定客户群进行新产品规划和设计。

Web数据挖掘可以定义为应用数据挖掘技术以自动发现和从万维网提取有用信息。一般来说，Web数据挖掘有三个研究领域：

Web结构挖掘涉及发现Web的超链接结构以便提取相关的连接模式。它侧重于挖掘HTML或XML标记的领域。
Web内容挖掘涉及自动发现Web信息中的模式，例如HTML页面，图像，音频，视频和电子邮件。
Web使用挖掘涉及从Web数据中发现使用模式，以便了解用户的在线导航行为。

当前的方法关注于web内容挖掘和web结构挖掘，以揭示搜索字符串之间的语义关系。我们的工作涉及用于分析搜索驱动网站的Web使用挖掘技术

3.相关工作

个性化产品推荐系统有可能帮助用户找到信息和服务，使他们能够决定购买哪些产品。

在这些系统中，通常采用两种信息过滤方法：内容过滤和协同过滤。内容过滤是指基于对产品支持信息的内容的分析来推荐项目在协作或基于社交的过滤中，根据其他用户的推荐推荐这些项目.基于社交的过滤依赖于用户的评级;因此，系统的成功取决于系统上当前的用户数量和用户之间的评级活动。

3.1 内容过滤

网站信息过滤系统（WebSIFT）是一种采用Web使用挖掘的在线信息系统.该系统是为Web个性化而构建的，典型的使用挖掘过程分三个阶段进行检查：数据预处理，模式发现和模式分析。Web拓扑和内容数据被视为有价值的域用于构建所谓的信念集的知识，即如果它们链接在一起和/或在内容中共享某些相似性，则“相关”的网页集。使用数据挖掘发现的模式（以前信息集未知）被认为是更有趣的模式，因为它们可能对用户来说是意外的。

另一个名为FAB的网页推荐系统被提出来.这种基于内容的系统依靠多个代理来分析他们访问网页的方式来了解用户的偏好。在这项工作中，提出了一种称为标准化的基于距离的性能测量（NDPM）的新性能测量。NDPM是用户对一组文档的排名与系统对相同文档的排名之间的距离，标准化为介于0和1之间。尽管他们在用户偏好集合上的表现显示出潜力，但与其他推荐相比存在缺点方法，因为他们的系统要求用户在注册时选择他们想要的感兴趣区域。然后将此信息用作初始用户配置文件，数据库中的项目与之匹配并给出建议。

Mooney和Roy在他们的论文中提出了基于内容的过滤的另一个例子，详细介绍了在线书店的推荐系统.他们的方法利用信息提取和机器学习算法进行文本分类。他们的方法的优点是它能够向具有独特兴趣的用户推荐以前未评级的项目，并为其建议提供解释。但是，它的缺点是它不提供其他用户的协作推荐。

在[12]。通过构建“电子图书馆”提供一种新方法，可以在搜索书籍，期刊，文章等时自定义在线用户的体验。他们的内容过滤系统可以自动学习用户偏好和目标，以创建一个自适应界面，提供为用户量身定制的服务。在他们的系统中，已经采用了有监督和无监督的数据挖掘技术。在论文中，作者将客户驱动的主动个性化方法与被动个性化方法进行了比较。这项工作表明，客户无法表达自己的偏好，可以获得更大的客户价值。但是，他们的系统无法理解客户行为的时间性质，也无法跟踪他们的概念偏差。

3.2. 协同过滤

在[13]，聚类技术用于提高协同过滤的性能。很难将基于距离的聚类技术应用于Web使用挖掘，这部分是因为很难定义用户会话之间的距离，用户会话通常是高维格式的。已经探索了用于分区的其他聚类方法，而不是用于构建使用简档的基于距离的聚类方法。通常是关联规则超图分区（ARHP），它是基于关联规则生成的频繁项集的分区技术基于聚类事务（PACT）的挖掘和概要聚合。AHRP用于分组和汇总用户事务。

Canny研究了协同过滤系统的概率模型中的隐私概念[14].他介绍的系统采用加密数据协议来保护人们的隐私。使用该算法获得的实验结果被证明是令人满意的，并且与其他协同过滤系统相比，该方法被认为是准确的。与以前的协同过滤算法相比，它在数据集的速度和大小方面也具有优势。潜在语义索引（LSI）[15] 已被Sarwar等人使用。[16] 解决用户数据之间关系不良的问题。在MovieLens项目中，作者利用具有奇异值分解（SVD）的LSI作为其基础矩阵因子分解算法，以适应协同过滤系统的降维。SVD技术已被用于生成原始客户产品空间的低维表示，并捕获客户之间的潜在关系。然而，他们的实验表明，SVD的结果在高维数据集上并不令人满意。

协作过滤技术的另一个例子在下面给出[17]，作者开发了一个名为e-Vzpro的系统。目的是克服信息太少或信息过多的问题。该系统包括由关联挖掘算法提供支持的推荐工具，其用于解决稀疏二进制数据的问题。系统采用两阶段方法：在第一阶段，客户历史数据通过关联挖掘算法进行预处理和分析，以生成规则集;在第二阶段，评分算法用于在线对推荐进行排名。他们的实验结果与其他依赖网络和基于项目的算法与余弦相似性度量进行了比较，并且e-Vzpro显示出优于这些方法。但是，该系统不会根据用户的当前行为进行实时推荐。

在[18]Jansen介绍了网络搜索研究的三步法，这个三阶段过程由数据收集，准备和Web服务器访问日志分析组成。还介绍了一种基于Web的应用程序，用于记录客户端用户的交互，补充分析方法。

该系统能够以非侵入方式处理事务日志，通过采用提高可伸缩性的协作方法从多个用户收集关于web搜索过程的交互数据。但是，由于客户端计算机或代理服务器上的服务器数据缓存，他们的系统暴露了日志数据可能无法完成的限制。此外，他们的应用程序无法捕获定义可用于预测建模的用户行为的日志的定性方面。

3.3. 内容和协作过滤

考虑了基于内容和协同过滤技术的方法[19]. 这里有一个推出了名为Yoda的推荐系统，以支持需要实时准确推荐的大规模基于Web的应用程序。这项工作的两个关键贡献是：（1）用于协同过滤的传统最近邻算法的改进;（2）一种新颖的过滤机制，通过结合新颖的距离测量来扩展局部敏感的散列技术，使离线过程可扩展。此聚合函数在脱机过程中用于为每个用户类生成预定义的推荐，称为群集愿望列表。目前的实施重点是推荐音乐CD。然而，这种方法的缺点是它需要指定项目的内容，即音乐CD，并使用特定格式表示。

通常，内容过滤和协作过滤技术为大多数当前的Web个性化系统提供支持。虽然这些个性化和推荐系统已经取得了一定的成功，但它们的广泛使用暴露了它们的一些局限性，即[9-12] 已经提出了基于内容的系统，通过分析他们的访问模式来学习用户偏好，然后推荐特定于用户兴趣的项目。这样的系统仅基于用户的注册文档内的匹配信息与已建立的用户人口统计简档。限制包括依赖于在线注册过程的主观输入的问题，其中大多数在线用户更喜欢匿名浏览网站，甚至可能填写导致不准确推荐的错误信息。今天的网络推荐的另一个明显缺点是他们关注用户过去的兴趣，而不是他们当前的浏览会话。

3.4. 问题，重点和方法

协同过滤的一个重要缺点是所谓的“可扩展性诅咒”。对于这些系统，需要将智能密集型任务作为在线过程实时执行。对于大型数据集，这可能导致不可接受的系统资源消耗和非常慢的响应时间。最近的研究工作集中在这个问题上，即在[13.16.17]作者努力利用新算法或优化已建立的方法，以便在可接受的时间范围内处理高维数据空间。

从已发表的文献中可以清楚地看出，尽管基于网络的推荐系统越来越普遍，但仍然存在一些需要解决的问题领域。因此，我们的工作基于建立适用于搜索驱动网站的灵活产品推荐系统的要求，该系统能够为每个匿名访客个性化Web体验。通过以下方式实现：

通过将离线模式发现与在线模式匹配相结合，缓解“可扩展性的诅咒”问题;
通过在作用于用户的点击流数据的协同过滤系统中采用Web使用挖掘技术来消除对用户注册的依赖性。

我们系统中的主要“引擎”是神经网络。神经网络分为监督学习模型或无监督学习模型，前者需要用已知解决方案训练样本来构建分类模型，而无监督模型则不需要。为了实现客户导航行为的预测建模，我们的工作使用无监督模型来创建和训练称为Kohonen网络或自组织映射（SOM）的特殊类型的神经网络.

3.5. 自组织地图

1981年，Tuevo Kohonen提出并演示了一种称为自组织映射（SOM）的新形式的神经网络结构，当输入数据具有高维度和复杂性时，它已证明非常有用。SOM操作背后的基本理论包括在内，实质上，基本理念显示为：

“以低维形式表示高维数据而不丢失数据的任何lsquo;本质rsquo;”
“基于相似性的数据组织，将实体几何上彼此接近”

SOM方法用于发现数据集中的关联和数据聚类（即，类似的表达模式），其中模型创建者无法预测分类的性质，或者他们认为可能存在多种方式来对特征进行分类。一个数据集。

4. 构建个性化推荐系统

我们系统的目标是推荐一组独特的对象，以满足每个活跃用户的需求。建议集基于用户的当前行为，因此如果用户在此次访问中似乎正在搜索硬盘驱动器，则这些是他将被推荐的项目类型。这是为了避免基于先前访问该站点的不相关推荐（这可能发生在其他现有推荐系统中），例如，当用户可能对打印机感兴趣时。推荐的对象可以包括针对每个用户的偏好定制的动态链接，促销广告或服务。推荐引擎收集活动用户的访问跟踪（用户在其当前浏览会话期间采取的“点击”操作列表）表征其行为并将其与先前分类的用户组行为的已知模式进行比较。然后将活动用户映射到特定用户组配置文件。为了提供适当的实时建议，这些配置文件已由我们系统的离线使用模式发现模块预先确定。离线使用模式通过Web使用挖掘发现，并根据使用情况进行分类。概要文件提供每个特定用户组的共同活动或兴趣的汇总表示。

本文重点介绍了离线使用模式发现模块的结构及其在电子商务，电脑产品贸易主动模式中的应用。通过与传统K-means聚类模型的比较来测试该模块。以下三个小节提供了脱机模块主要组件的详细信息。

4.1. 数据预处理

数据预处理是将原始数

资料编号：[5260]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码