登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 软件工程 > 正文

基于文本内容的垃圾短信识别算法毕业论文

 2021-07-12 10:07  

摘 要

垃圾短信一直是困扰手机用户和运营商的一个重大问题,垃圾短信的泛滥已经严重影响到了人们的正常生活、运营商形象乃至社会稳定。要想解决这一问题,不仅需要加强公民道德素质和法治管理,而且还要建立有效的垃圾短信过滤系统,切断垃圾短信的传播途径。目前常用的垃圾短信过滤技术有黑白名单过滤、关键字过滤以及基于短信内容的过滤,但基于黑白名单、关键词过滤垃圾短信的效果有限,结果部分垃圾短信仍然能够到达手机终端。

因此,本文研究了基于短信内容的垃圾短信识别系统,该系统结合中文分词技术和朴素贝叶斯算法来分析短信内容,能够准确、完整地识别垃圾短信。考虑到现实环境中短信数据量巨大,本文不仅实现了朴素贝叶斯算法的单机版,而且基于大数据处理框架Spark实现了算法的并行版,用来提高垃圾短信过滤系统的性能。

实验结果表明,系统识别垃圾短信准确率高达99.64%,查全率高达98.20%;在算法并行版的性能几乎是单机版的2倍。

关键字:垃圾短信;文本分类;文本向量化;朴素贝叶斯算法;并行算法

Abstract

SMS spam has been a big problem that disturbed cell-phone users and mobile operators,the flood of SMS spam has affected the normal life of people,the figure of mobile operators and even the stability of the society.To solve this problem,not only should the citizenship and managerial law be improved,but also should effective SMS spam filtering system be established,which could cut off the transmission route of SMS spam.At present, common SMS spam filtering techniques includes black and white list filtering,keyword filtering and content-based filtering.But,the effectiveness of black and white list filtering and keyword filtering is limited so that there are still many SMS spam escape from filtering and reach the mobile terminal.

Therefore, this paper researches a system based on the content of SMS,this system combines Chinese words segmentation techniques and naive bayes algorithm to analysis the content of SMS,which could recognize SMS spam accurately and completely.Given the fact that the number of SMS spam is huge,this paper implement both stand-alone and parallel versions of naive bayes.The parallel version, which is built on Spark,could improve the efficiency of the filtering system.

The experiment result shows that the filtering system has the accuracy rate of 99.64% and the recall rate of 98.20%,and the performance of the parallel version of the algorithm is almost twice times of the stand-alone version.

Key Words: SMS spam; text classification; text vectorization; naive bayes; parallel algorithm

目 录

第1章 绪论 1

1.1研究背景和意义 1

1.2垃圾短信的危害 1

1.3垃圾短信问题研究现状 1

1.3.1垃圾短信治理现状 1

1.3.2目前常用的垃圾短信过滤技术 2

1.4本文的研究内容 2

1.5本文的组织结构 3

第2章 文本分类关键技术 4

2.1文本分类概述 4

2.2文本预处理 5

2.2.1过滤“非法字符” 5

2.2.2中文分词 5

2.2.3 去掉单字和停用词 5

2.3文本的向量化 5

2.4分类算法简介 6

2.4.1 K-最近邻 6

2.4.2 朴素贝叶斯 6

2.4.3 支持向量机 7

2.4.4 基于关联规则的分类 7

2.5文本分类模型的评估方法 7

第3章 朴素贝叶斯算法用于短信分类 8

3.1朴素贝叶斯算法 8

3.1.1贝叶斯定理 8

3.1.2朴素贝叶斯分类器 8

3.2 朴素贝叶斯分类器用于短信分类 9

3.2.1 短信的格式和特点 9

3.2.2 短信文本的向量化 9

第4章 基于朴素贝叶斯算法的垃圾短信识别系统 11

4.1 垃圾短信识别系统的实现 11

4.1.1朴素贝叶斯算法单机版的实现 11

4.1.2朴素贝叶斯算法并行版的实现 13

4.2实验与分析 13

4.2.1实验环境与数据 13

4.2.2实验评估标准 14

4.2.3实验结果与分析 14

第5章 总结与展望 16

5.1本文总结 16

5.2后续工作展望 16

致谢 18

参考文献 19

第1章 绪论

1.1研究背景和意义

随着社会经济和科学技术的发展,人们生活水平逐渐提高,手机作为科技发展的产物之一已经成为人们的日常生活的必需品。手机短信具有即时收发、费用低和灵活等特点,是人们日常生活中一种重要的通讯方式。由于发送垃圾短信的成本较低、垃圾短信过滤技术不够完善以及垃圾短信发送者利用技术手段逃避监管等原因,导致一些商业机构及不法分子利用垃圾短信进行牟利,造成了垃圾短信泛滥。垃圾短信泛滥不仅占用了大量的网络资源,损害了公众利益,而且垃圾短信中包含的非法广告、骚扰、欺诈和谣言等内容,严重影响了人们的正常生活、运营商形象乃至社会稳定。

因此,必须对垃圾短信进行彻底治理。一方面,政府及相关管理部门要完善立法、加强管理,严厉打击利用垃圾短信进行牟利的组织和个人;另一方面,我们要研究出准确、高效、可靠的垃圾短信过滤系统,过滤掉垃圾短信,拦截垃圾短信的传播。从而保证人们的正常生活,促进社会安全稳定。

1.2垃圾短信的危害

垃圾短信[1]主要包括非法广告短信、骚扰短信以及欺诈短信,垃圾短信的泛滥已经使人们的正常生活受到了影响。垃圾短信的主要危害有:

  1. 不良市民通过短信发送骚扰信息,不法商家利用垃圾短信发布广告,这些影响了他人正常生活,侵害了他人的通信自由权;
  2. 败坏运营商的形象和品牌。大量的垃圾短信不仅占用了运营商的通信资源,而且会引起人们对运营商的不信任,这回破坏运营商形象。
  3. 利用短信发送虚假的中奖、征婚以及招聘信息,进行欺诈、勒索等违法犯罪活动; (4)少数不法分子利用它传播谣言和色情信息,恶化社会风气,影响社会和谐稳定;

1.3垃圾短信问题研究现状

1.3.1垃圾短信治理现状

为治理垃圾短信,我国建立了垃圾短信的举报、判定以及查处机制,公安机关和中国互联网不良信息举报中心都可以接受用户举报,经过核实认定后,按照相关法律,运营商有权停止垃圾短信发送者的短信服务。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图