区块链异常数据检测系统的设计与开发外文翻译资料

2021-12-18 23:02:45

英语原文共 7 页

摘要

本文提出了一种新的可扩展的自动异常检测模型，用于云等大型系统。异常检测是通过从正常操作数据中学习系统特征来发布动态环境中异常行为的早期警告。由于其异构性，动态性，可扩展性，隐藏的复杂性和时间限制，大型系统中的异常检测很难检测到。要检测云中的异常活动，我们需要监控数据中心并收集云性能数据。在本文中，我们提出了一种自适应异常检测机制，它研究了性能指标的主要组成部分。它将性能指标转换为低秩矩阵，然后使用Robust PCA算法计算正交距离。所提出的模型更新自身递归地学习和调整新的阈值以便最小化重建错误。本文还研究了使用Apache Spark作为底层框架的主要组件分析分析环境，具体解决了正常操作可能表现出多种隐藏模式的情况。该模型的准确性和灵敏度在Google数据中心跟踪和Yahoo!数据集。该模型的准确率达到87.24％。

1.简介

云计算越来越普及，趋势变得更加复杂。今天的云基础架构正在经历规模和复杂性的增长。对于如此大规模的系统，可靠性成为系统管理员管理更多服务器的主要问题。它需要一些系统自动化来监控这样一个大型系统。这反过来需要监控，以深入了解云中运行的硬件，系统和应用程序的运行情况。监视系统是跟踪系统行为和检测异常行为的关键因素。由于性能问题，故障和配置问题，异常行为被识别为异常行为。异常可能导致意外行为，并导致数据中心的低效率和停机时间。当前的数据中心由数千个虚拟机组成，这些虚拟机需要动态资源调度才能高效且经济地运行。这些数据中心需要满足各种资源的不同需求，例如： CPU和内存，调度程序必须动态分配或重新分配资源。这需要监视资源利用以便检测异常行为。观察所表示的服务器度量（例如，延迟，cpu，内存）是至关重要的按时间序列，任何异常行为。

早期发现这些异常时间序列对于先发制人是至关重要的保护用户并提供更好的用户体验的行动。这些数据中心生成的性能数据是高容量，高速度，非结构化和大规模需要以有效方式处理的金额。此外，这些高产量需要轻松处理可扩展的方式可伸缩性是大多数问题的主要问题异常检测工具。流行的大数据框架，例如，Hadoop [1]，MapReduce [2]，HBase [3]，Apache Spark，等解决了可扩展性问题。 Apache Spark执行内存计算并具有高级DAG（定向非循环图）执行引擎，支持循环数据流。这使得Spark比其他分布式框架更快。Spark比内存中的Hadoop MapReduce快100倍磁盘速度提高10倍[4]。

在本文中，我们提出了一种基于自适应的异常检测异常行为的检测方法。我们的方法分析日志文件并预测要创建的资源使用情况标记为异常。重建错误有助于调整阈值有助于有效地检测异常。我们的方法包括5个步骤：（1）预处理，（2）度量集合（3）特征提取（4）预测和（5）异常检测。我们介绍一种有效且分布式的异常检测算法经过温和的假设损坏的点，恢复最佳的低维度子空间并识别损坏的点。我们的技术涉及使用SVD（奇异值）进行矩阵分解。PCA转变为低级别使用较低维度逼近数据矩。异常数据是通常在项目中具有更高的幅度和方差飞机。我们模型的评估是公开使用的来自Google数据中心的可用跟踪，包含12k 机器和数百万个工作和任务。准确性模型的使用精度和召回指标计算。我们的模型精度达到87。测试时为24％雅虎时间序列数据集，准确度为86.2％谷歌数据中心的痕迹。

A.我们使用Spark在分布式环境中提出了一种自动化的且自适应异常检测技术作为检测云基础架构异常的底层框架。引入自适应算法，其使用重建误差来确定样本大小并更新阈值。我们的方法的有效性使用Google集群跟踪和Yahoo!评估。

B.相关工作数据中心的大多数监控工具都使用固定阈值技术来检测异常。主成分分析（PCA）已经被用于许多关于异常检测的研究工作。我们在这里的工作主要基于[7]中的工作。在那里，作者提出并成功地使用了基于PCA的分类器来滤除34维连接记录数据集中的异常，用于1999年KDD杯[9]，这是一种分类学习竞赛。此外，作者迈出了向他们的探测器进行证明的第一步。该方法的主要缺点是特征工程，其编译了KDD数据集的特征，这些特征在现实中几乎不可用。还有其他流行的技术来检测用于监控云基础设施的异常，例如基于阈值的，统计和基于熵的技术。MASF [10]是一种基于阈值的技术，可对每小时，每日或每周数据段进行操作。该技术在准确性和误报率方面存在一些限制。基于熵的异常测试（EbAT）[11]是一种用于检测云计算系统中的异常并分析度量的异常检测分布的新技术。已经有很多关于异常检测的工作，通常基于统计技术等。但是，大多数工作都不具有可扩展性;他们无法在未来数据中心和云计算的规模上运营。此外，它们中的大多数都是固定阈值技术，需要有关应用程序和服务实现的先验知识。此外，其中一些只处理特定抽象级别的特定问题。 Yu等人提出了一种基于层次分组的异常检测的可扩展方法和使用Hadoop和MapReduce的非参数诊断机制。同样，Gupta等人。 [17]使用Hadoop将日志转换为时间序列和应用数据挖掘技术来提取异常。他们的方法实现了可扩展性，但不易扩展到实时处理。此外，他们的方法处理特定类型的问题。 Apache Spark比MapReduce更快，已被用作我们方法的底层框架。这里提出的技术本质上是分布式的，可扩展的和自适应的。我们提出的技术随着时间的推移而不断改进，因为它可以了解工作负载特性，从而提高精度并减少误报。它具有可扩展性，可满足未来数据中心的需求，适用于大量日志。在我们的研究中，我们研究了一种五步法，包括预测，分类和RPCA（鲁棒主成分分析），用于特征提取以检测异常。

C.纸张结构第II节概述了背景。第三节介绍了我们分析的设计和方法。部分

IV评估我们的算法并呈现结果。第五节总结了论文。

II。背景技术A.稳健的PCA（主成分分析）：PCA是将给定的一组数据点映射到新轴（即主成分）的线性变换。它通常用于降维技术。在经典PCA中，使用样本数据点之间的欧几里德距离从样本协方差矩阵计算特征向量和特征值[18]。在RPCA中，使用鲁棒协方差估计来完成特征分解。从具有总稀疏误差的一组观测中分解低秩矩阵被称为鲁棒主成分分析（RPCA）。强大的PC在低维空间中有效地表示数据。使用测量的距离在该低维空间中检测到异常;正交距离，即观察到PCA空间的距离。它在计算机视觉，图像处理和数据排序方面有很多应用。此外，如果观察到的数据除了严重的稀疏误差之外还受到密集噪声的污染，则RPCA用于获得低秩矩阵。

B. Spark：Apache Spark是一个开源的分布式框架，在数据分析中非常流行。与Hadoop类似，它是容错的，并且支持分布式计算系统来处理快速和大量的数据流。它使用hadoop分布式文件系统来存储和读取数据。它提供了内存集群计算，允许用户将数据加载到集群内存中，从而使性能提升速度比Hadoop MapReduce快100倍。 Apache Spark hastwokeyconcepts：TheResilientDistributedDataset（RDD）和有向非循环图（DAG）执行引擎。 RDD允许在具有高容错性的大型分布式集群上进行内存计算。每当用户执行查询时，DAG执行引擎就会创建一个有向无环图[4]。

C. Hadoop：Hadoop [1]是一个开源框架，用于首先由Yahoo!开发的分布式存储和数据密集型处理。它有两个核心项目：Hadoop分布式文件系统（HDFS）和MapReduce编程模型[2]。 HDFS是一种分布式文件系统，它在整个集群中的节点上分割和存储数据，具有许多副本。它提供了一种极其可靠，容错，一致，高效且经济高效的方式来存储大量数据。MapReduce模型由两个关键函数组成：Mapper和Reducer。 Mapper通过不同的map任务并行处理输入数据拆分，并将排序的shuf fl ed输出发送到Reducers，Reducers又使用每个组的reduce任务对它们进行分组和处理。

III。方法我们的方法涉及几个关键步骤，如数据预处理，度量提取，特征选择，错误率计算，阈值更新和异常检测。异常检测涉及几个步骤，如图1所示。

第一步是记录文件的聚合并将它们存储在HDFS中。日志文件经过预处理并转换为可通过我们的模型读取的形式。在日志文件中收集了不同类型的度量标准;例如，在本文中，我们收集每个监控日志中的CPU利用率，内存利用率和磁盘I / O.因此，针对每种类型的度量进行以下预处理步骤。每个度量被转换为数据矩阵并使用奇异值分解（SVD）分解为低秩表示。此外，Robust PCA用于将异常值和低秩表示与原始数据分开。自适应更新在必要时对模型执行更新。自适应更新使用平均重建误差作为确定更新操作的措施。预定阈值delta;用于确定何时需要更新。预处理数据：对每个节点的日志数据进行预处理，并将其转换为模型可轻松访问的形式。通过将样本值除以所有样本的平均值，将每个样本值转换为标准化形式。一旦标准化完成，每个标准化样本值彼此分箱。例如，CPU和内存在相同的时间间隔内装箱在一起。从而形成矢量结果，例如在时间t：Et = lt;C t，M tgt;，其中Ct =时间t的CPU利用率，Mt =时间t的存储器利用率。度量标准收集：数据中有不同的度量标准，很难确定正确的度量标准，因此度量标准选择是数据分析的必要条件。我们从节点收集一组统一的度量标准，并将它们连接成一个矩阵X.在本文中，我们从数据中心收集了几个指标，包括CPU，内存，磁盘I/O和页面缓存。例如，可能存在可能影响CPU利用率和系统中其他资源的内存泄漏。为了检测本文中的异常，我们从Google数据中心收集了痕迹。

表1中列出了度量标准。度量标准选择：如表1所示，大型系统中存在不同的度量标准，有必要选择最佳的度量子集。度量选择也称为降维。在低维子空间中呈现的数据更容易分成不同的类。要收集不同的功能，我们会汇总指标以给定时间帧的每秒间隔。异常检测：为了检测云计算和数据中心等大规模分布式系统的资源利用异常行为，我们需要预测消耗。设Xt是表示时间t的CPU使用量测量值的向量。但是，数据中心包含大量节点（n大），向量表示为Xn向量。我们提出了主成分分析来识别资源使用模式，然后对主成分的子集进行预测。 PCA是当今用于数据分析和降维的最广泛使用的统计技术。但是，它对于损坏的输入数据矩阵来说是脆弱的，这通常会威胁到它的有效性：X中的一个损坏的条目可能会导致估计的低级别代表L？远离等级表示L. PCA使用奇异值分解（SVD）来找到数据的低秩表示。 PCA（RPCA）的强大版本通过重复计算SVD并将阈值应用于每次迭代的奇异值和误差来识别低秩表示，随机噪声和一组异常值。矩阵分解算法使用鲁棒主成分追踪[20]将输入矩阵X分解为三个部分X=L S E的总和。其中，L是表示平滑X的低秩表示矩阵，S是包含损坏数据的稀疏矩阵，E是噪声。如果矩阵X由趋势组成，我们代表每列的趋势。例如，每周季节性将是每行是一周中的一天，一列是一列整整一周。低秩矩阵L是使用X的SVD和使用阈值的奇异值[21]计算的。这种方法允许我们同时检测多个异常，使得该方法具有鲁棒性。有许多可用于异常检测的技术，但是当存在两种或更多种不同类型的异常时，大多数技术（例如回归和移动平均值）都不稳健。在经典方法中，第一主成分对应于具有最大方差的投影观察。经典方法的准确性取决于从数据中估计协方差矩阵，这对异常观察非常敏感。假设，大数据矩阵X从等式1中给出的经典PCA定义分解为L和S.

L具有低秩表示矩阵。S是稀疏矩阵。X是数据矩阵。我们将mtimes;n数据矩阵表示为X Rmxn，Xi，j表示X的第（i，j）项。奇异值分解（SVD）是用于低秩分解的最常用工具。 SVD将矩阵L分解为三个因子：等式2中所示的U，V和S：

U是X的左奇异向量的anm xm正交矩阵。V是X的右奇异向量的ann xn正交矩阵。S是X的奇异值的向量。

F是Frobenius范数[22] L是X的低秩近似，K是L的最大秩.L借助于等式4中的以下优化问题求解

（4）

其中Delta;*和Delta;Lle;1分别是核范数和l1范数，lambda;gt; 0是平衡参数。等式1中的优化问题可以作为凸优化问题来解决[23]。但是，这个过程非常缓慢地收敛。对于大型矩阵，这不能很好地扩展，因为它们保留了高阶信息。为了克服可扩展性问题，使用了第一阶信息[24]。通过从低秩近似的努力中排除异常值，我们可以确保估计的低秩结构的可靠性。稀疏矩阵S中呈现的异常值包含在算法1中计算的大方差。

一旦将样本数据发送到模型，就必须确定适当的更新过程。选择样本后，将计算数据的重建错误。计算训练集的平均重建误差与新样本的平均重建误差的比率。如果sigma;ratiogt;delta;，那么当前模型不能很好地表示当前数据。

IV。结果设置：我们的集群由11个节点和CentOS Linux发行版组成，每个节点用于Namenode，Secondary Namenode，Job Tracker和Zookeeper。其余6个节点充当数据节点和任务跟踪器。所有节点都有AMD Opteron（TM）4180六核2.6GHz处理器，16 GB ECC DDR-2 RAM，3x3 TeraBytes辅助存储和HP ProCurve 2650交换机。使用Apache Spark，Hadoop-0.20版本进行实验。我们的默认HDFS配置块大小为64 MB，复制因子为3.真正的数据集来自Google和Yahoo!表示各种服务器度量（例如，内存使用，磁盘I / O，CPU）。真实数据集中的异常时间序列基于恶意活动，新功能部署或流量转移。本文中介绍的检测技术已应用于从Google数据中心收集的公开可用性能和事件跟踪。此外，使用Yahoo!验证模型的准确性和灵敏度。数据集和谷歌追踪。 Yahoo数据集由400个不同的时间序列组成，标记为异常。

图2：CPU利用率的异常检测：红点表示异常，黑线

资料编号：[4528]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码