Web日志预处理并行算法的应用研究毕业论文

2021-06-24 21:34:25

摘要

近年来,随着互联网的迅速发展和普及,Web站点和相关组织收集很多Web日志数据,其中包含很多有用的信息和知识,这些信息和知识可以用来设计产品,确定客户生命周期,优化Web应用程序的功能,为用户提供更多个性化内容在网络空间中找到最有效的逻辑结构同时优化Web应用。因此，挖掘海量的Web日志数据一直具有重大的实际意义。

传统的串行计算方法已很难处理如此海量的数据，而云计算技术可以有效地处理这些海量数据。众所周知Hadoop是Apache软件基金会旗下的一个开源分布式计算的平台。以HDFS和 MapReduce为核心的Hadoop体系为客户提供了系统底层细节透明的分布式基础架构，为充分利用云计算来处理海量数据提供了有效的支撑。

主要目的是分析了大量的网络日志，研究主要集中于Hadoop框架和传统的数据挖掘相结合，终于完成了基于Hadoop的一个Web日志分析系统，它可以从用户的在线数据有意义的信息被挖掘。本文的主要工作包括：

（1）研究了 Web日志数据挖掘的相及关背景和意义，以及如何将Hadoop应用到传统的数据挖掘中的方法。

(2)研究了 Web日志的挖掘预处理过程。

(3)利用MapReduce编程模型实现对web日志的统计模型。在基于MapReduce技术上，研究并实现并行算法，通过对比分析，同时结合Hadoop的框架，提出并实现日志预处理的主要部分。

关键词：数据的挖掘，Web日志数据，Hadoop，MapRedu

Abstract

With the rapid growth of the Internet and the popularity of the network, Web-based organizations collected massive web log data in which there are a great deal of useful information and knowledge hidden, and these information and knowledge can help these organizations design products, determine customers9 life cycle, optimize the function of web applications, provide users with more personalized contents and the most effective logical structure for the web site. Thus, large volume web log data mining is of great practical importance.

However，traditional serial computing can’t handle such large volume of data，and cloud computing can do the job efficiently. Hadoop is an open source distributed computing platform of Apache software foundation. With HDFS and MapReduce as its core, Hadoop provides a basic distributed architecture with its underlying details hidden, which provides an efficient support for using cloud computing to process large volume of data.

The major object of this thesis is to combine Hadoop with traditional data mining methods and to mine out efficiently useful information and knowledge from the massive web log data collected in the company where the author worked as an intern.

The main work is as follows:

（1）Discussed the background and significance of web log data mining and how to apply Hadoop to original data mining methods is discussed.

（2）Described the method of data pre-processing for web log mining.

（3）Implemented statistical modeling with MapReduce. Designed and implemen

Key words： Data Mining, Web Log Data, Hadoop, MapReduce

第1章绪论

1.1课题背景

随着互联网的飞速发展，人们开始针对web这个数据源进行数据挖掘来获取需要的数据，这称之为web挖掘。Internet用户群体表现出各种互联网用户群的特点，对数以千万计的网站组成的全球网络进行，拥有不同的背景，不同的利益和目标用户的访问，给他们留下了很多的访问Web访问的过程和使用信息来产生大量的网络日志，随着互联网规模的不断发展，日志数量也成倍的增长，传统web预处理算法已经不能适应海量数据的处理要求，需要对其进行并行化设计，以适应海量数据处理要求。在海量的Web数据面前，普通用户迫切需要一种机制来快速查找到所需的信息。 Web数据挖掘已经出现，并与Web的发展一起。根据信息检索，数据挖掘和知识管理技术，大量的Web文档的获取的隐式知识和模式的分析的基础上，通过对大量的Web文档进行分析来获得隐含的知识和模式。

1.2国内外研究现状

1996年学者M.S.chen,H.Mannila,T.Yan提出了可以将数据挖掘的方法适用于web研究的领域。同时也提出了用这种方法来分解用户访问的session变为一个个的事，然后就可以在实务的基础上挖掘用户访问的模式。1999年J་Borges等人又提出了引用超链接概率的理论原理，改正了传统意义上对序列的界定，可以将用户的访问在网站结构图中保存下来，根据访问的条件概率判来断用户频繁访问的路径。

相对国外而言，国内对web数据挖掘领域进行研究的时间较晚，目前大部分还处于理论研究阶段。陆丽等提出了基于扩展有树模型进行浏览模式识别的web日志挖掘方法，并将这些基于事务的处理方法用来研究web日志预处理和用户访问序列模式挖掘方法。Hadoop己经成为公认的新一代大数据的处理平台。Hadoop是一个能够对大量数据进行分布式处理的软件框架。它以Google发布的MapReduce以及Google的文件系统研宄论文为基础。Hadoop的作为一个“大数据”的底层技术的很多分析工具，用于访问到Web，服务器日志和海量数据的产生以及其他类型的过滤的数据流，在分布式环境下提供海量数据的处理能力采用Hadoop的分布式体系结构，使得云计算可在个人计算机上运行，对硬件的要求不是很高，大大节省了硬件的成本，同时，在Hadoop架构是易于操作，很适合应用在系统中。

1.3 课题目的与意义

研究的意义：

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码

Web日志预处理并行算法的应用研究毕业论文

目录

第1章绪论

1.1课题背景

1.2国内外研究现状

1.3 课题目的与意义

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

Web日志预处理并行算法的应用研究毕业论文

目录

第1章绪论

1.1课题背景

1.2国内外研究现状

1.3 课题目的与意义

您可能感兴趣的文章

最新文档

推荐栏目