登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 电子信息工程 > 正文

基于文本挖掘的个性化推荐算法的设计与实现毕业论文

 2020-02-17 11:02  

摘 要

互联网的用户在浏览和使用网站或者App时面临着对海量的信息进行筛选的问题,与之对应产生了的推荐系统则很大程度提供了解决的方法,各类网站以及用户在浏览和使用各种互联网产品时会留下大量的产品数据和用户相应的评价。只要通过一些方法从大规模的文本数据中得到可利用的资源内容,就可以改善用户的对于各类互联网产品的使用体验。本文提出了一种算法通过产品本身的基本属性以及用户评分为输入数据进行文本挖掘,能够针对不同用户进行个性化推荐。

目前常用的推荐算法一般是协同过滤的推荐算法从而进行聚类分析产生用户评分矩阵,依据用户历史对产品的评分推荐类似物品。对用户量及用户关系复杂程度要求较高,推荐并不一定准确。因此本文提出一种基于文本挖掘的个性化推荐算法。通过评分、和电影用户的各基本属性,其中评分数据是用户喜好最直接的量化指标,电影名和类型等基本属性是用户进行电影选择的第一观感,以电影的基本属性为物品特征描述文本数据,利用词嵌入和文本卷积神经网络生成词向量模型进行向量化表示。这些生成的特征向量通过神经网络模型训练某一用户对某一具体电影的评分并能够在给定具体用户和电影的情况下进行电影评分预测。最后本文对电影评分预测模型进行Web端的封装,在Web上实现输入用户具体信息后能够对其与数据库中所有电影资源分别预测对其的评分,并选取top-k部电影产生对此用户的个性化电影推荐。

本文实验部分使用Movielens作为数据集进行训练,以评分预测的均方误差为推荐系统的评价指标。首先实验利用Python平台调用Tensorflow框架进行数据预处理与推荐模型的训练,然后利用Java平台调用SSM框架编写Web页面进行推荐结果的在线预测,增加用户的交互体验。实验结果表明,推荐系统能很大程度上反映用户的观影需求。

关键词:文本挖掘;推荐系统;文本卷积神经网络

Abstract

Internet users are faced with the problem of screening a large amount of information when browsing and using websites or apps. The corresponding recommendation system has provided a solution to a large extent. Various websites and users are browsing and using each. A variety of product data and user-related evaluations will be left in the case of Internet products. As long as the available resource content is obtained from large-scale text data through some methods, the user's experience with various Internet products can be improved. This paper proposes an algorithm for text mining based on the basic attributes of the product itself and user ratings for input data, which can be personalized for different users.

At present, the commonly used recommendation algorithms are generally collaborative filtering recommendation algorithms to perform cluster analysis to generate user scoring matrices, and recommend similar items according to user history. The requirements for user volume and user relationship complexity are high, and the recommendation is not necessarily accurate. Therefore, this paper proposes a personalized recommendation algorithm based on text mining. Through the scoring, and the basic attributes of the movie user, the scoring data is the most direct quantitative indicator of the user's preference. The basic attributes such as the movie name and type are the first look and feel of the user to select the movie, and the basic attribute of the movie is used to describe the text data. , using word embedding and text convolutional neural network to generate a word vector model for vectorized representation. These generated feature vectors train a user's score for a particular movie through a neural network model and are able to make movie score predictions given the specific user and movie. Finally, the paper classifies the movie scoring prediction model on the Web side. After inputting the user specific information on the Web, it can predict the scores of all the movie resources in the database, and select the top-k movie to generate the personality of the user. Film recommendation.

In the experimental part of this paper, Movielens is used as the data set for training, and the mean square error of the score prediction is the evaluation index of the recommendation system. Firstly, the Python platform is used to call the Tensorflow framework for data preprocessing and recommendation model training. Then, the Java platform is used to call the SSM framework to write web pages for online prediction of recommendation results, which increases the user's interactive experience. The experimental results show that the recommendation system can largely reflect the user's viewing needs.

Key Words:text mining; recommendation system; Text convolutional neural network

目 录

第1章 综述 1

1.1研究背景及意义 1

1.2国内外研究现状 2

1.3本文研究内容和组织结构 4

第2章 推荐系统总体设计 5

2.1 设计思路 5

2.2 设计流程图 5

第3章 基于Python-Tensorflow框架的神经网络模型 6

3.1 数据集获取及预处理 6

3.1.1数据集获取 6

3.1.2数据预处理 7

3.2 数据的特征提取 9

3.2.1 词向量表示 9

3.2.2 嵌入层生成特征 9

3.2.3 文本卷积神经网络生成特征 11

3.3电影评分离线训练模型实现 14

3.3.1 模型设计与训练过程 14

3.3.2 模型的测试 15

第4章 基于Java Web-SSM框架的个性化推荐网站实现 16

4.1 推荐算法概述 16

4.1.1基于内容的个性化推荐算法 16

4.1.2本网站推荐算法实现原理 16

4.1.3个性化推荐算法评价标准 16

4.2 web平台开发框架 18

4.3 功能实现 19

4.4 整体功能综合实验与结果分析 21

第5章 总结与展望 24

5.1 总结 24

5.2 未来工作 24

5.2.1 数据源变丰富 24

5.2.2 文本特征提取技术 24

参考文献 26

致 谢 27

第1章 综述

1.1 研究背景及意义

互联网用户在网站和APP的使用过程中很需要一种功能,那就是能够解决他们也许无法直接找到希望浏览的资源的困扰。若是使用者不能通过描述他们的需求从而给出关键字,通过用户给定的关键词来实现信息查询和检索的搜索引擎是无法解决这个问题的。而推荐系统的则针对这个问题提供了一种新的思路。搜索引擎的运行需要输入确定的文本数据,而推荐系统则省略了这个步骤。推荐系统可以利用有用户在网站中以往的操作所留下的行为信息,对信息进行学习和分析,建立和设计有针对性的推荐模型,这样便能够根据用户以往操作的行为信息预测之后可能感兴趣的内容。

推荐系统将用户那些以前需要利用搜索引擎来搜索关键词才能获取信息的行为,转变为系统自动分析用户历史行为进而预测用户未来的喜好并且自动为使用者生成属于每个用户个性化的推荐。相比于搜索引擎能够实现用户主动精确搜索的功能,推荐系统则是不需要用户的准确描述也能够学习和预测用户可能无法很好通过关键词搜索来表述的需求。大多数互联网产品一般都有对其相对应产品打分的功能,是用户能够反映产品的直观感受的有效途径。网站用户对其对应产品的评分包含了很多用户最直接的感受和喜好,对产品的生产来源如厂家或者创作人员以及其他未选择的用户都能起到很好地参考作用。例如在观影前根据电影的豆瓣评分高低,用户可以很大程度上参考电影的精彩程度等信息。这些可以帮助用户决定是否观看一些电影或者视频资源。

评分信息以及商品的基础信息如名字和类别已成为用户选择产品的重要信息来源,且对用户的商品购买决策影响非常显著。因此通过研究评分数据,将其作为建立推荐模型的指标可以使得推荐想过更加准确。大部分网站中提供产品或商品都包含了评分信息,如电影视频网站领域。因为在电影和一些电视剧或者综艺视频中,用户在需要挑选电影或者视频时都希望能够有他人的使用体验来帮助自己进行判断。用户通常在观看电影后也愿意对电影产品进行评价的表达,这些因素都会使得产品的评分数据变得丰富。当用户在网站上挑选产品或者使用一些功能时,也通常会参考对应产品的评分信息。如果网站能够充分地利用这些特征数据并进行充分挖掘从而对评分进行提前预测则能够提高了用户的使用体验并增加用户留存率。个性化推荐的研究从 1990年就已经开始,目前的研究依靠数据挖掘和机器学习的理论知识来生成使用者的个性化推荐产品的列表。

个性化推荐系统在学术界的理论研究和工业界的实际应用都具有重要意义。首先,推荐系统技术涉及到的研究方向十分丰富,研究既拓宽了在各个领域的理论研究内容,又对各学科知识进行更加实际的应用,对学科之间相互影响与融合起到了积极作用。其次,个性化推荐通过充分挖掘每一个不同的用户喜好,更能精确地找到用户感兴趣的内容,对用户生产推荐产品的列表供用户选择,符合用户的潜在的兴趣。用户在选择他们所需要的产品之前不仅仅依赖于产品的本身信息,而且能够参考其他用户的评分,这种方式弥补了传统推荐模型千篇一律的缺陷。本文对实验数据进行数据预处理,用户和电影的特征向量量化、提取用户和电影特征,预测用户对所有可能观看的电影的评分,对目标用户进行推荐。

1.2 国内外研究现状

第一个自动推荐系统名为Group Lens[1],是来自于美国明尼苏达大学Group Lens实验室的Resnick教授,一直发展至今,其理念是通过建立和理解真人所使用的系统来推进社会计算的理论和实践。

美国的视频内容提供商 Netflix公司希望解决其推荐视频推荐效果不够好的问题,曾发起了一场推荐系统竞赛并维持了三年的时间,嘉奖那些能够基于 Cinematch推荐系统的开发使得推荐精度提高10%的参赛者,奖金高达一百万美元。之后基于关联规则挖掘的推荐系统[2]、基于Bayesian分类的推荐系统[3]、个性化推荐服务[4]等等系统相继被提出。单京晶[5]提出一种基于 K- means的个性化推荐方法,该方法通过聚类算法对用户潜在有兴趣的产品特征进行聚类,能够使得有相似特征的产品归为同种类别,最后生成的推荐列表中的产品。Feng等人[6]组合了概率主题模型-用户主题模型和随机行走与重启方法。概率主题模型-用户主题模型的组合通过利用用户的大致喜好和产品的基本信息生成用户和产品的潜在框架,它们提升了描述组兴趣和项目特征的完整程度。与随机行走与重启方法组合后计算其之前的关联程度来得到用户对产品的偏好程度。Wang等学者[7]基于协同过滤的推荐系统增加了LDA主题模型建立混合推荐的模型,改善了单一的协同过滤模型。

个性化推荐的研究从20世纪90年代初开始,该研究领域交叉、融合了许多领域的知识。其中,推荐算法是推荐系统的核心内容,算法的性能优劣与合理性将对推荐系统的实现产生影响。所以研究内容主要着眼于推荐算法的设计与实现。

当前工业界中普遍采取的推荐系统中的推荐算法基本分为以下几类:

(1)基于内容的推荐算法

基于内容的推荐算法通过建立模型实现利用产品的基本属性来描述对应特征,通过用户以往的行为和使用习惯的数据,对这些数据进行学习,并在模型的学习中计算特征之间的相似度,再依据相似度信息分析用户偏好并生成推荐列表。

该过程中涉及到一系列统计学习、机器学习中的知识与技术。基于内容的推荐方法简单且容易理解。该算法根据用户需求的不断改变来生成不同的推荐产品列表。类似地,当产品的相似性改变时,系统也将对推荐产品进行实时更新。

Howe等人[8]认为,使用主题进行提取的方法提取用户可能会选择的文件,并在用户相对应的配置文件中将其存储,然后计算网站所提供的产品的属性与用户对应文件之间的相似度,生成的推荐结果便是依据相似度的从高到低。Robertson等学者[9]利用现有数据和配置文件进行计算而得的相似程度的概率的分布情况,依据一定条件为所得的相似度选定恰当的阈值。在前面所说的两种文件之间计算所得相似度高于预定的阈值时,就会修改配置文件,这样降低了改动文件的操作次数,提高了系统的执行效率。

另一方面,某些研究进行了对配置文件中的关键词进行的改进的工作。Degemmis[10]基于关键词通过Wordnet 理论建立用户配置文件。系统中首先对文本数据处理,文本数据中的语义信息将精确的反映待推荐用户的潜在选择意向,这种方法提高了推荐结果的精确性。

(2)基于协同过滤的推荐算法

基于协同过滤的推荐方法是一种存在时间较久,早期提出的推荐算法,是在已商用化流行的被很多产品采用的推荐算法,同时在学术界的研究成果也非常丰富。协同过滤算法并不对推荐对象做什么要求,算法的实现主要是取决于与目标用户潜在喜好相似的使用者,多方面衡量相似用户的喜好来生成目标用户的个性化产品推荐。

Gao等学者[12]认为数据的维度过高和过于稀疏的问题使协同过滤算法无法获得较好的推荐效果,设计了将语义通过特定算法分为多类的方法来提高推荐性能效率和精度。Ma等学者[13]提出一种能够避免稀疏性过高的方法,将用户和产品的相似的信息进行混合,计算缺失评分。这些研究针对协同过滤的推荐算法的过于稀疏的问题给出了一些改善的方法。

(3)混合推荐算法

基于内容的推荐算法和协同过滤推荐算法,以及除此之外别的个性化推荐算法都有着自身独有的优点,然而由于单一的推荐算法在设计和建立时所考虑的应用场景等因素的限制,这些单一的推荐算法在实际运用的过程中也有不够完善的地方,因此工业界的实际使用中普遍会将相异的推荐算法通过各种方式重新混合,也就是混合推荐技术。

目前阶段很多研究者通过实际产生的数据进行研究,他们发觉从准确性的角度来看,混合推荐系统的推荐结果是强于单一的推荐系统。组合基于内容推荐和协同过滤算法是在商业应用最为广泛的方法。

Aslanian等学者[16]设计了一种推荐系统将协同过滤以及基于内容推荐进行混合,文章提到了一个算法用来提取数据内容的特征关系矩阵,使得该关系矩阵能够很好的应用到推荐系统中。相比于同时期其他推荐算法,该算法改善并一定程度上解决了冷起动问题。

另外,Christakou等学者[18]建立并训练神经网络,通过机器学习的方法预测待推荐用户的自身兴趣内容,以便能生成精度较高的个性化推荐结果。除此之外,还有基于知识的推荐算法[19],包含基于约束和事例的推荐算法,这种情况下不需要考虑系统冷启动的问题,用户在使用过程中会有更友好的使用体验。Zhang等学者[20]提出了基于社群关系中的热传导机制的系统方法,通过这种方法挖掘某些确定潜在的信息数据,将大规模的网络用小的节点表示,同时此系统在很多情况下的包容性也会提高。

除此之外, Kong等学者[22]基于长短期记忆网络(LSTM),这是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,利用网络从时间方面的交通堵塞时长和空间方面的地理扩散趋势进行计算与预测,建立并实现了基于长短期记忆网络的个性化推荐算法。

1.3 本文研究内容和组织结构

本文的主要研究内容为通过以往的用户对电影的评分以及用户的个人信息数据数据基于文本卷积神经网络模型实现个性化电影推荐系统并进行web页面的封装。本文系统整体实现的主要流程如下:

以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。

相关图片展示:

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图