登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 计算机类 > 计算机科学与技术 > 正文

文本关键词提取和自动分类算法的研究与实现文献综述

 2020-06-23 08:06  

一.课题背景 随着互联网技术的飞速发展,网络中出现了巨大的信息资源,而中文文本信息在其中占有很大的比重,因此我们如何快速、准确地获取自己所需要的中文信息成为我们急需解决的课题。

而针对中文文本的数据挖掘技术可以帮助我们解决这一难题。

二.数据挖掘理论 数据挖掘[1][2][3][4](Data Mining)就是从大量的数据中提取出对用户真正有用或感兴趣的知识(Knowledge),习惯上被称为数据库中知识发现(Knowledge Discovery in Database,KDD)的同义词。

数据的挖掘由七个步骤组成:1、数据清理:消除噪声,2、数据集成:多种数据源可以组合在一起,3、数据选择:从数据库中检索出与任务相关的数据,4、数据变换:数据变换成适合挖掘的形式,5、数据挖掘:使用人工智能方法提取数据模式,6、模式评估:根据某兴趣度度量,识别表示数据真正有用的模式,7、数据表示:使用可视化技术,向用户提供挖掘的数据。

对于各种数据源,如关系数据库,事务数据库,面向对象数据库,文本数据库,音频、视频等多媒体数据库以及web信息等[5],都可以进行挖掘。

三.文本数据挖掘 在现实世界中,大部分信息是存储在文本数据库中,由各种数据源(如新闻、书籍、数字图书馆、电子邮件和web页面等)的大量文档组成,随着Internet的快速增长,文本数据库也得到了迅速发展。

传统的处理文本数据库的方法是信息检索技术,就是根据用户输入的关键字定位相关文档。

虽然信息检索技术有方便快捷的优点,而且在现实生活中有很广的应用,但是大量电子文档的产生,这种方法已经无法满足处理文本数据库信息。

因此,为了更加有效地处理文本数据库,出现了文本自动分类(Automatic Text Categorization)[6]技术,就是利用计算机对对象按照一定的标准进行自动分类标记。

按照文本语料的性质和应用需求的不同,文本自动分类可分为基于分类体系的自动分类、基于信息过滤和用户兴趣的自动分类。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图