基于智能离散协同过滤的电影推荐技术研究文献综述

2020-05-01 08:41:03

1．目的及意义

1.1目的及背景

随着科学技术的不断进步，互联网自 1969 年开始到现在呈现了爆炸式的迅速发展。现在互联网不断地渗透到人们的日常活动中，它为人们提够了海量的信息，同时也影响和改变了人们的日常生活习惯，互联网已经成为了人们生活中必不可少的一部分！根据中国互联网信息中心近期发布的《第 31 次中国互联网络发展状况统计报告》显示，截至 2012 年 12月底，我国网民规模达 5.64 亿，2012 年共计新增网民 5090 万人。互联网普及率为 42.1%，较 2011 年底提升 3.8%。截至 2012 年 12 月，中国网站数量为268 万，全年增长 38 万，增长率为 16.8%；中国网页数量为 1227 亿，相比于 2011 年同期增长 41.7%^[2]。

互联网中有各式各样的网站，在中国，大型的门户网站有“新浪”、“搜狐”、“腾讯”以及“网易”等，还有各色的专门网站，比如：“优酷”、“土豆”、“56”等视频网站，“起点”、“红袖添香”、“看书网”等网络书籍网站。这些不同的网站提供给人们大量不同的信息，例如：新闻、书籍等文本信息，视频、音乐等影音信息。网络还给了大家众多互相交流的社交平台比如：“人人”、“Facebook”等供大家共享信息。那么，互联网上一天究竟产生多少信息？互联网上究竟有多少信息？

中国工程院院士邬贺铨曾表示互联网上一天约产生 800EB 信息，如果保存在 DVD光盘中要用 1.68 亿张、保存在硬盘中要用 80 万个。目前视频已成为互联网的主流内容，到 2015 年在互联网上一秒所传的视频，如果一个人要看完需要花 5年时间。对“You Tube”而言，一天新上载 7 万小时视频，40 亿次浏览量。

2011 年加利福尼亚大学圣迭戈分校的科学家通过两年时间的艰苦努力终于计算出2008 年全球互联网服务器上存储的信息数据的总容量为 9.57ZB，相比于 GB 和 TB，ZB这个数据容量单位已经超过了常人所能理解的范围。1ZB 等于 1024EB，而 1EB 等于1024PB，1PB 等于 1024TB、1TB 等于 1024GB，换而言之每 ZB 大约为 1 万亿 GB，而9.57ZB 则大约为 10 万亿 GB 。

面对互联网上海量的信息资源，人们往往很难从海量的信息中得到符合自身需求的信息，从而降低了信息的使用效率，也就产生了所谓的“信息过载”（Information Overload）问题^[3]。

“搜索引擎”是一种解决信息过载问题的有效方法，它指根据一定的策略、运用特定的程序从互联网上搜集信息，再对信息进行处理和组织，为用户提供检索服务，将用户检索相关的信息展示给用户^[4]。目前，搜索引擎技术虽然较为成熟，但要正确并迅速找到所需的信息，却有越来越困难的趋势。一方面，搜索引擎只为用户提供与用户输入的关键字相关的信息，而不同用户表达的方式不同，因此，即使有两个用户要找的信息相同他们所提供的关键字也有可能不同，并且有些用户感兴趣的内容可能用户本身也无法用语言确切地描述，在这些情况下搜索引擎就变得无能为力了。另一方面，通过关键字从搜索引擎得到的信息对用户来说是“千篇一律”的内容，搜索引擎返回结果的形式也仅是按照关键字的相关程度进行排序，不同用户想要寻找的信息不同也可能提供相同的关键字，搜索引擎不会考虑到用户的个人因素，只要关键字相同返回的结果就相同，这无法满足用户的个性化需求，导致搜索的效果差很大，某些人可能觉得结果很好，而另一些人却可能觉得结果很差。由于在需求和服务之间出现的这种反差，人们渴望搜索引擎变得更具个性化。为了满足这种用户的个性化要求，推荐系统应运而生。推荐系统的基本原理是，首先对用户的历史行为数据，如浏览、购买、评论和打分等情况进行保存，然后根据用户的这些使用记录挖掘用户偏好信息，分析用户的喜好并构建用户兴趣模型。当用户浏览信息时，它可为不同的用户主动推荐其可能感兴趣的信息，提供个性化的服务，以满足不同用户的不同需求。

搜索引擎和推荐系统的本质区别是：搜索引擎需要用户手动查找信息，相当于用户去“Pull”信息，用户是主动的，搜索引擎是被动的；而推荐系统自动提供信息给用户，相当于推荐系统去“Push”信息，推荐系统是主动的，而用户是被动的^[6]。

1.2研究现状分析

国外把推荐系统作为单一的项目研究是在上世纪90年代，研究人员想通过用户对物品的一些反馈，如对物品的评价，和用户的多次购买行为，以及推荐给朋友多次购买等隐性和显性的反馈来预测用户可能喜欢的物品。1994年美国明尼苏达大学研究团队发表了一篇关于网络新闻推荐引擎（An open architecture for collaborative filtering of netnews）的一个架构体系，是比较早使用协同过滤算法的研究团队。电子商务领域非常有名的亚马逊公司，在2003年在上发布了一篇名为”Amazon.com Recommendations Item-to-Item Collaborative Filtering”的论文，该论文详细介绍了基于的协同过滤算法，后来该算法（Item-based）在商业系统中被大量运用。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码