登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 计算机科学与技术 > 正文

基于iOS的文本审核系统的开发毕业论文

 2021-04-02 09:04  

摘 要

本系统是基于iOS平台的文本审核系统。近几年,许多公司特别是微博等言论繁复多样的平台,都使用了智能的文本审核过滤系统,用来过滤不符合标准的言论。在用户量较大,信息较复杂的情况下,使用人工审核是高成本而低效率的。建立一套适用于移动端的文本审核系统是很有必要的。

本系统最主要的就是设计并实现一个可集成,易使用,易扩展的基于iOS平台的敏感词过滤系统。基于目前网络上的发言多种多样,存在很多不适合传播,影响平台面貌,甚至违法犯罪的言论,这些言论都应该在发表出来之前就被屏蔽和过滤,而一个基于iOS平台,在iOS系统中直接可以使用的文本审核系统是很有必要的。

本系统主要使用Swift 3,Python语言进行开发,开发环境为Xcode和PyCharm。本系统最主要的部分为分词和关键词匹配算法,该部分具有可移植、易集成、易使用等特点,可以集成到iOS应用中,经过简单配置即可使用。用户只需要调用一个方法既可获得不符合规定的文本内容。其中关键词匹配使用了Aho-Corasick算法,分词使用了pullword在线分词及iOS平台本地分词算法。关键词匹配使用的关键词和近义词可以自由定制。

本系统实现了分词和关键词匹配算法和用于测试、演示的App。

关键词:文本审核; 敏感词过滤;Swift 3; 分词; 关键词匹配算法;Aho-Corasick;

Abstract

The system is based on the iOS platform for text review system. In recent years, many companies, especially microblogging and other well-versed platforms, have used intelligent text review filtering systems to filter out non-conforming remarks. In the case of large amount of users, information is more complex circumstances, the use of manual audit is high cost and inefficient. It is necessary to establish a set of text review systems for mobile applications.

The system is the most important design and implementation of an integrated, easy to use, easy to expand based on the iOS platform sensitive word filtering system. Based on the current network on a variety of statements, there are many not suitable for the spread of the impact of the platform, and even criminal statements, these remarks should be published before being shielded and filtered, and an iOS-based platform in the iOS system Directly available text review system is necessary.

The system is mainly used Swift 3, Python language development, development environment for the Xcode and PyCharm. The main part of the system for the word segmentation and keyword matching algorithm, which has a portable, easy to integrate, easy to use and so on, can be integrated into the iOS application, after a simple configuration can be used. The user only needs to call a method to obtain non-compliant text content. The keyword match uses the Aho-Corasick algorithm, and the word segment uses the pullword online word segmentation and the iOS platform local word segmentation algorithm. Keyword matching using keywords and synonyms can be freely customized.

The system implements word segmentation and keyword matching algorithms and App for testing and demonstrating.

Key Words:Keywords text review; sensitive word filtering; Swift 3; word segmentation; keyword matching algorithm; Aho-Corasick;

目 录

第1章 绪论 1

1.1研究背景 1

1.2国内外研究现状 1

1.3研究的意义 2

1.4论文组织结构 2

第2章 系统分析 3

2.1 系统描述 3

2.2功能性需求分析 3

2.2.1分词算法与关键词匹配 4

2.2.2输入与展现 5

2.2.3关键词与近义词管理 5

2.2.4配置文件更新 6

2.3非功能性需求分析 6

2.3.1性能需求 6

2.3.2界面需求 6

2.4 可行性分析 7

2.4.1 iOS端技术 7

2.4.2 服务端技术 7

第3章 系统设计 8

3.1系统总体架构设计 8

3.2中文分词功能的详细设计 8

3.2.1 中文文本预处理 8

3.2.2 常用的中文分词工具 8

3.2.3 中文分词的详细设计 9

3.3 敏感词匹配功能的详细设计 9

3.3.1 常用的关键词匹配方法 9

3.3.2 关键词匹配的详细设计 10

3.3.3 数据分析 10

3.4 输入与呈现功能的详细设计 11

3.5 敏感词与近义词管理的详细设计 11

3.6 配置文件更新的详细设计 12

第4章 系统实现 13

4.1 分词和关键词匹配算法实现 13

4.1.1分词算法实现 14

4.1.2关键词匹配算法 15

4.1.3 词表的构建 16

4.2输入与展现实现 17

4.3关键词和近义词管理实现 18

4.4配置文件更新实现 19

4.5 分词与关键词匹配测试 19

第5章 总结与展望 20

5.1总结 20

5.2展望 20

参考文献 21

致谢 22

第1章 绪论

1.1研究背景

从论坛时代,到博客再到现在流行的微博、弹幕,人们可以在网上发声的地方越来越多了,发表自己的话语也变得越来越简单。随着移动互联网的兴起,生活的方方面面都在慢慢地移动互联网化,人们交流的场景也迁移到了移动设备上。有人说话的地方就可能存在问题。由于各人的差异性,会有一些不适宜出现在互联网上的,具有侮辱性的言论,这些言论都是应该被屏蔽的,以免造成别的用户的反感,并产生不和谐的影响。有时候官方也不希望一些关键词出现在自己App内,通过文本审核系统就可以屏蔽这些关键词,达到官方想要的目的。由于这些需求,一个适用于移动客户端的文本审核系统是很有必要的[1]

在以前,出现这种不和谐的言论可能需要人工审核过滤。近几年,许多公司特别是微博等言论繁复多样的平台,都使用了智能的文本审核过滤系统,用来过滤不符合标准的言论。在用户量较大,信息较复杂的情况下,使用人工审核是高成本而低效率的。建立一套适用于移动端的文本审核系统是很有必要的。

1.2国内外研究现状

文本审核实际上是对自然语言的处理过程,两个主要的部分是分词和关键词检索。中文分词是所有自然语言处理的基础。目前也有一些在线分词的工具,提供接口可以直接使用,但是要考 虑延迟,处理速度等,如果自己实现分词,会增加很多难度。需要进一步调研后决定使用什么方式。分词的原理:本质是字符串匹配的方法,将一串文本中的文字片段和已有的词典进行匹配,如果能够匹配,则此文字片段就作为一个分词结果。常见方法:机械切分(正向最大匹配方法,逆向最大匹配法,双向最少切分法);路径选择法(n 最短路径方法,n 元语法模型法)。对于这两个领域的研究,国内外都有很多。文本审核系统具有一定的局限性,由于有一些手段可以避开审核,比如关键词翻转,添加空格或其他字符,将关键词拆分等,因此文本审核系统无法做到完全检测出关键词进行屏蔽。通过机学习和分词算法的提高可以提高一定的屏蔽性。分词领域,针对歧义切分、未登录词等问题都有深入的研究,有HMM、CRF等模型。对于关键词检索,由于关键词是不规律的、会随着时间的推移变化的,目前也产生了深度学习在这方面的应用[2]

1.3研究的意义

本文本审核系统主要针对iOS平台上需要用到文本审核的场景,比如聊天,发帖,回复,发弹幕等。可以达到屏蔽不和谐词汇,减少具有侮辱性、威胁性、不善的言词传播。使用者可以在自己的App中集成这个文本审核系统,在用户输入文本后使用这个审核系统进行审核。通过此系统就可以达到审核的目的,让自己App里的内容更加和谐。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图