登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 计算机科学与技术 > 正文

个性化新闻推荐系统的设计与实现毕业论文

 2020-02-16 10:02  

摘 要

随着智能设备的大量普及以及自媒体形式的媒体的兴起,人们面临到了由于信息量太过于庞大而信息过载的问题,虽然丰富的资讯给予了用户更宽的视野,海量的信息使得用户目不暇接,但用户也将面临着海量用户自身并不愿意看到的信息,使得信息的使用效率低下。个性化推荐系统从该问题出发,逐渐摸清用户的兴趣,将用户感兴趣的内容推荐出去,并结合用户的反馈操作,提炼出优质的新闻,防止质量低或内容低级的新闻被持续地推荐给用户。

针对现代推荐系统的面临的几大主流问题:用户与新闻的冷启动、新闻时效性、新闻质量、信息牢笼等问题,互联网上流行的推荐算法各有优劣,难以提炼出全方面完美的解决方案。本次个性化推荐系统的设计与实现也将针对以上几大主流问题提出新的解决方案,主要工作包括以下4个方面:

  1. 数据预处理。使用jieba分词与tf-idf算法分析新闻的内容,提炼出新闻的关键词,使用c 重写tf-idf算法,替换了原python的idf算法,使用了动态生成的idf值,提高了适用于新闻推荐的关键词的区分度;为数据源添加随机点击量、点赞量、分享量、收藏量,完善了数据源中关于时间数据与用户反馈数据上的缺失。
  2. 热门推荐算法的研究。使用了对数函数将用户反馈因素平滑处理,防止热度激增现象的出现;引入了时间因素作为主要影响因素,淘汰老旧过时的新闻;大幅减少点击率带来的影响因素,使得没有被用户主动反馈的低质量新闻快速沉下去。
  3. 基于用户兴趣的新闻推荐的设计。使用带权重的用户兴趣表,将tf-idf算法结果作为新闻关键词对应的兴趣权重,结合新闻关键词表与用户兴趣表设计出针对用户个人兴趣的新闻推荐,使用热门新闻算法与之纵向组合,大幅度缩小了用户兴趣-新闻关键词矩阵,减少了计算量;在用户兴趣不足的情况下,使用了兴趣与热门新闻混合推荐解决用户的冷启动问题。
  4. 推荐效果的改进。使用基于用户的协同过滤推荐算法改进推荐效果,解决数据牢笼问题,挖掘用户的潜在兴趣,使用经典的k临近算法,获取用户的相似度,将高相似度的用户组成用户组,采用针对于用户组主成的兴趣模型推荐改进原有的推荐效果。

关键词:新闻推荐;tf-idf;协同过滤

Abstract

With the popularity of intelligent devices and the rise of media in the form of self-media, people are facing the problem of information overload due to the huge amount of information. Although abundant information gives users a broader vision, the vast amount of information makes users unable to catch their eyes, but users will also face a large amount of information that users themselves do not want to see, making the use of information inefficient. Starting from this problem, personalized recommendation system gradually finds out the user's interest. recommends the content that the user is interested in. combines the user's feedback operation to extract high-quality news, so as to prevent low-quality or low-level news from being continuously recommended to users.

In view of the main problems faced by modern recommendation systems, such as cold start of users and news, news timeliness, news quality and information cage, the popular recommendation algorithms on the Internet have their own advantages and disadvantages, and it is difficult to extract perfect solutions in all aspects. The design and implementation of this personalized recommendation system will also provide new solutions to the above major mainstream issues. The main work includes the following four aspects:

1. Data preprocessing. Jieba word segmentation and TF-IDF algorithm are used to analyze news content, extract news keywords, and C is used to rewrite TF-IDF algorithm to replace python's IDF algorithm. The dynamic generated IDF value is used to improve the discrimination of keywords suitable for news recommendation. Random clicks, point praise, share and collection are added to data sources to improve the time number of data sources. According to the lack of feedback data with users.

2. Research on popular recommendation algorithms. The logarithmic function is used to smoothly deal with user feedback factors to prevent the phenomenon of heat surge; the time factor is introduced as the main influencing factor to eliminate old and outdated news; the impact factor of click-through rate is greatly reduced, which makes the low-quality news which is not actively feedback by users sink rapidly.

3. Design of news recommendation based on user interest. Using a weighted user interest table, the results of TF-IDF algorithm are taken as the corresponding interest weights of news keywords. Combined with the news keyword table and user interest table, a news recommendation is designed for the user's personal interest. The combination of popular news algorithm and it vertically reduces the user interest-news keyword matrix by a large margin and reduces the amount of calculation when the user's interest is insufficient. It uses the mixed recommendation of interest and hot news to solve the cold start problem of users.

4. Improvement of recommendation effect. User-based collaborative filtering recommendation algorithm is used to improve the recommendation effect, solve the data cage problem, tap the potential interest of users, use the classical k-nearest algorithm to obtain the similarity of users, make users with high similarity into user groups, and use interest model for user groups to improve the original recommendation effect.

Keywords: News recommendation;tf-idf;Collaborative filtering;

目录

第1章 绪论 1

1.1 研究背景及意义 1

1.2 国内外研究现状 1

1.3 课题研究内容 2

第2章 系统设计 3

2.1 需求分析 3

2.2 系统架构 4

2.2.1 模块划分 4

2.2.2 用户的结构化处理 5

2.2.3 新闻的结构化处理 6

2.1 组合推荐模式 7

第3章 数据预处理 9

3.1 调用[python]jieba库分词 9

3.2 C 重写tf-idf算法 9

3.2.1 tf-idf思路 9

3.2.2 tf-idf实现 10

3.3 tf-idf的优化 10

第4章 热门新闻的筛选 12

4.1 原则与思路 12

4.1.1 时间衰减 12

4.1.2 阅读即为热度 12

4.1.3 避免热度激增 13

4.1.4 特征值的优先级问题 13

4.2 新闻热度函数的设计 13

4.2.1 冷启动问题 13

4.3 算法函数效果分析 14

第5章 推荐系统实现 16

5.1 基于协同过滤的推荐 16

5.2 动态的兴趣标签 17

5.2.1 带权重的用户画像 17

5.2.2 阈值的设定 17

5.2.3 兴趣衰减 18

5.3 推荐效果展示 19

5.4 存在的问题与解决思路 19

第6章 总结及展望 21

6.1 系统设计总结 21

6.2 个人展望 21

绪论

研究背景及意义

随着智能设备的大量普及以及自媒体形式的媒体的兴起,人们面临到了由于信息量太过于庞大而信息过载的问题,虽然丰富的资讯给予了用户更宽的视野,海量的信息使得用户目不暇接,因此用户也将会面临海量的不感兴趣的信息,使得信息的使用效率极为低下。个性化新闻推荐系统将会去逐渐把握用户的兴趣点,将用户感兴趣的新闻推荐给用户,并结合用户的点击量、点赞等等反馈操作,提炼出的优质且实时的新闻,将更多有影响力有价值的并且用户感兴趣的新闻资讯推荐给用户。

个性化推荐技术涉及多个学科领域,主要是指通过数学算法分析物品信息、用户偏好,用户信息等,由此给用户推荐他们可能喜好的物品。在新闻领域,个性化推荐技术运用到推荐新闻上,又称“算法推荐新闻”。一个优秀的新闻推荐算法,可以满足用户对信息的需求,提升了新闻客户端的竞争力。新闻客户端运用个性化推荐新闻,提供了以人为本的用户体验,贏得了受众,从而提升客户端自身的竞争力。

国内外研究现状

现在的个性化新闻推荐提供了以人为本的用户体验, 赢得了大量的用户, 从而提升了客户端以及品牌自身的竞争力。而新技术的发展与创新, 又大大地鼓励了新闻内容的生产和消费,新闻客户端运用个性化新闻推荐技术为实现媒介融合提供了一条好的思路。

当今流行的个性化新闻推荐的弊端也是非常的明显:

  1. 现存的个性化新闻推荐基本上是根据用户的兴趣爱好推送文章,这使得用户将会接收越来越局限与自身原本“兴趣”的内容,接收信息逐渐片面化, 久而久之, 导致体验者的认知走向偏激化, 禁锢在自己的“兴趣标签”构建的信息茧房中。
  2. 个性化新闻推荐并不能了解自然语言的真实具体语义,这使得一些点击率虚高、内容质量极低甚至低俗的文章会被推送给用户,使得新闻价值观偏离主流。

(3)新闻在刚发布的时候由于缺少用户点击量与用户评价,使得刚发布的新闻难以在较短时间内通过聚合计算获得较高的优先度,更进一步的说,由于刚发布的新闻没有任何评判指标,系统无法自动评判新闻的质量,这使得尽管能在后期识逐渐别新闻质量,不良新闻依然会在得到一定评判之前被推荐。

课题研究内容

个性化新闻推荐系统实现了针对用户兴趣的热门新闻推荐,并针对了新闻推荐系统的几大经典问题,如计算user-news相关度的矩阵过度稀疏问题,解决用户新上线,新闻新上线的冷启动问题,保证新闻的质量问题,用户新闻的质量问题,避免热度激增问题等,采用了具体的解决方案,本文所作工作如下:

以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图