1.大数据是什么？提示：你每天都是它的一部分。外文翻译资料

2021-12-12 22:23:01

英语原文共 166 页

1.大数据是什么？提示：你每天都是它的一部分。

我们应该在哪里开一本关于大数据的书？如何使用定义，因为这个术语“大数据”有点用词不当，因为它暗示预先存在的数据在某种程度上很小（它不是）或唯一的挑战是它的绝对大小（大小是其中之一，但往往更多）。简而言之，“大数据”一词适用于无法使用传统流程或工具处理或分析的信息。当今的组织越来越多地面临着越来越多的大数据挑战。他们可以获取大量信息，但他们不知道如何从中获取价值，因为它以最原始的形式或半结构化的格式存在；结果，他们甚至不知道是否值得保留（或者甚至能够保留它）。IBM的一项调查发现，今天有超过一半的商业领袖意识到他们无法获得他们所需的洞察力来完成工作。公司面临着这些挑战，他们有能力存储任何东西，并且他们正在创造历史上前所未有的数据; 总之，这提出了真正的信息挑战。这是一个难题：今天的业务比以往任何时候都更容易获得潜在的洞察力，但随着这个潜在的数据金矿堆积起来，企业可以处理的数据百分比正在下降。我们认为，在我们谈论您可以使用大数据做的所有伟大事情之前，以及IBM如何拥有一个我们认为会让您更加成功的独特端到端平台之前，我们需要谈谈大数据的特征以及它如何融入当前的信息管理领域。

很简单，大数据时代今天全力以赴，因为世界正在发生变化。通过仪器，我们能够感知更多的东西，如果我们能够感知它，我们倾向于尝试存储它（或至少一些它）。通过通信技术的进步，人和事变得越来越相互联系 - 而且不仅仅是在某些时候，而是在所有时间。这种互联率是一个失控的列车。通常被称为机器到机器（M2M），互连性负责两位数的年同比（同比）数据增长率。最后，因为小型集成电路现在非常便宜，我们能够为几乎所有东西添加智能。

甚至像火车这样平凡的东西也有数百个传感器。在火车上，这些传感器跟踪诸如火车所经历的状况，各个部件的状态以及用于货物跟踪和物流的基于GPS的数据。在导致大量生命损失的列车脱轨之后，政府出台了规定，存储和分析这类数据以防止未来的灾难。轨道车也变得更加智能化：增加了处理器来解释易于磨损的部件（如轴承）上的传感器数据，以确定在故障发生之前需要维修的部件并造成进一步损坏或更严重的灾难。但它不仅仅是智能的轨道车 - 实际的轨道每隔几英尺就有传感器。更重要的是，数据存储要求适用于整个生态系统：汽车，铁路，铁路道口传感器，导致铁路运输的天气模式等。现在添加它来跟踪铁路车辆的货物装载量，到达和离开时间，您可以很快发现自己手上有大数据问题。即使这些数据的每一点都是关系的（并且不是），它们都是原始的并且具有非常不同的格式，这使得在传统的关系系统中处理它是不切实际或不可能的。轨道车只是一个例子，但在我们看到的任何地方，我们都会看到速度，体积和多样性相结合的域，以创建大数据问题。

IBM创建了一个完整的模型，帮助企业通过智能星球平台接受这一变化。这是一种不同的思维方式，它真正认识到世界现在已经过仪器化，互联化和智能化。智慧地球的技术和技术促进了对世界数据现实的理解和收获，为前所未有的洞察力和改变工作方式提供了机会。要构建智能地球，收集所有数据至关重要，IBM大数据平台就是为此而设计的。事实上，它是智能地球计划的关键建筑支柱。

大数据的特征

三个特征定义了大数据：体积，变化和速度（如图1-1所示）。总之，这些特征定义了我们IBM称之为大数据的内容。“他们创造了对新类别功能的需求，以增强今天的工作方式，以便为我们现有的知识领域提供更好的网站和控制和采取行动的能力。

IBM大数据平台为您提供了独特的机会，可以从上下文中的大量数据，多样性和数据速度中提取洞察力，超越了以前的可能性。让我们花一些时间明确定义这些术语。

3.可以有足够的数据量吗？

今天存储的大量数据正在爆炸式增长。在2000年，世界上存储了80万千兆字节（PB）的数据。当然，现在正在创建的大量数据根本没有被分析，这是我们试图用BigInsights解决的另一个问题。我们预计这个数字到2020年将达到35 ZB（ZB）。仅Twitter每天产生超过7 TB的数据，Facebook 10 TB，以及一些企业生成。

图 1-1 相比之下，只有它自己能够发挥作用，并且能够发挥作用，并且能够发挥作用，V ^ 3

一年中每天每小时都有数TB的数据。对于个别企业而言，拥有存储集群数PB的数据已不再是闻所未闻。我们将在那里停止使用这样的事实：事实是，这些估计将在您和您的朋友家人阅读本书时过时，并且当您授予您对数据增长的丰富知识时它们将会进一步过时。

当你停下来思考它时，会发现难怪我们淹没在数据中。如果我们可以跟踪和记录某些内容，我们通常会这样做（请注意，我们没有提到对这些存储数据的分析，这将成为大数据的主题 - 我们追踪并且不用于决策的新数据利用率。）我们存储了所有内容：环境数据，财务数据，医疗数据，监控数据和清单，这些一直在继续。例如，将智能手机从皮套中取出会产生一个事件; 当你的通勤列车的门打开登机时，这是一个事件; 办理登机手续，登记工作，在iTunes上购买歌曲，更改电视频道，采用电子收费路线 - 这些操作中的每一个都会生成数据。需要更多？明尼阿波利斯的圣安东尼瀑布大桥（取代2007年I-35W密西西比河大桥的倒塌）在战略要点设置了200多个嵌入式传感器，提供全面的监控系统，可收集各种详细数据，甚至温度的变化和桥梁对这种变化的具体反应可用于分析。好的，你明白了：数据比以往任何时候都多，所有你需要做的就是把个人家用电脑的太字节普及率看作是告密者的标志。我们过去常常列出我们所知道的几乎十年前超过1TB的所有数据仓库 - 可以说，在数量方面，情况发生了变化。

正如“大数据”一词所暗示的那样，组织面临着大量数据。不知道如何管理这些数据的组织不堪重负。但是，利用合适的技术平台，有机会分析几乎所有数据（或者至少通过识别对您有用的数据来分析更多数据），以便更好地了解您的业务，客户和市场。这导致当前所有行业的业务面临当前的难题。随着企业可用数据量的增加，它可以处理，理解和分析的数据百分比正在下降，从而形成了图1-2中所示的盲区。那个盲区里有什么？你不知道：它可能是

图 1-2 今天组织可用的数据量正在增加，而他们可以分析的数据百分比正在下降。

一些伟大的东西，或者可能什么都不是，但“不知道”是问题（又或着是机会，取决于你如何看待它）。

关于数据量的对话已经从TB级变为PB级，不可避免地转移到ZB级，所有这些数据都无法存储在传统系统中，原因我们将在本章和其他章节中讨论。

4.变化是生活的一部分

与大数据现象相关的数量为试图处理它的数据中心带来了新的挑战：它的多样性。随着传感器，智能设备以及社交协作技术的爆炸式增长，企业中的数据变得越来越复杂，因为它不仅包括传统的关系数据，还包括来自网页，Web日志文件的原始，半结构化和非结构化数据。（包括点击流数据），搜索索引，社交媒体论坛，电子邮件，文档，来自主动和被动系统的传感器数据等。更重要的是，传统系统可能难以存储和执行所需的分析以从这些日志的内容中获得理解，因为生成的大部分信息不适合传统的数据库技术。根据我们的经验，尽管一些公司正在沿着这条路走下去，但大多数公司刚刚开始了解大数据的机会（如果不考虑大数据会有什么危险）。

很简单，多样性代表所有类型的数据 - 分析需求从传统结构化数据的基本转变，包括原始，半结构化和非结构化数据，作为决策和洞察过程的一部分。传统的分析平台无法处理多样性。然而，一个组织的成功将依赖于它能够从其可用的各种数据中获取洞察力，其中包括传统和非传统的数据。

当我们回顾我们的数据库职业时，有时候看到我们将更多的时间花在了20％的数据上是很羞愧的：关系类型的格式整齐，非常适合我们严格的模式。但问题的真相是，世界上80％的数据（以及越来越多的这些数据负责设定新的速度和体积记录）是非结构化的，或者最多是半结构化的。如果您查看Twitter提要，您将看到JSCN格式的结构 - 但实际文本不是结构化的，可以理解是有益的。视频和图片图像不容易或有效地存储在关系数据库中，某些事件信息可以动态地改变（例如天气模式），这不适合严格的模式，等等。要利用大数据机会，企业必须能够分析所有类型的数据，包括关系数据和非关系数据：文本，传感器数据，音频，视频，事务等。

5.这数据的速度有多块？

正如我们收集和存储的数据量和数量变化一样，因此生成和需要处理的速度也是如此。对速度的传统理解通常考虑数据到达和存储的速度以及其相关的检索速率。尽管快速管理所有这些都很好--我们正在查看的数据量是数据到达速度的结果--我们认为速度的概念实际上比这些传统定义更具吸引力。

为了适应速度，一种新的思考问题的方法必须从数据的初始点开始。我们建议您将此定义应用于运动中的数据：数据流动的速度，而不是将速度的概念局限于与数据存储库相关的增长率。毕竟，我们一致认为，今天的企业正在处理数PB而不是太字节数据，RFID传感器和其他信息流的增加导致数据的持续流动，使得数据不可能传统系统要处理。

有时候，在竞争中获得优势可能意味着在其他人之前只能在几秒甚至几微秒内识别趋势，问题或机会。此外，目前生产的越来越多的数据具有非常短的保质期，因此组织必须能够近乎实时地分析这些数据，如果他们希望能够在这些数据中找到见解。大数据规模流计算是IBM一直在提供的概念，并且是大数据问题的新范例。在传统处理中，您可以考虑针对相对静态的数据运行查询：例如，查询“向我显示所有居住在新泽西州洪水区的人”将导致单个结果集用作传入的警告列表天气模式。通过流计算，您可以执行类似于连续查询的流程，该流程可识别当前“在新泽西州洪水区域”的人员，但您可以获得持续更新的结果，因为GPS数据的位置信息会实时刷新。

有效处理大数据需要您在数据仍处于运动状态时对数据量和各种数据进行分析，而不仅仅是在数据处于静止状态之后。考虑将新生儿健康跟踪到金融市场的例子; 在每种情况下，它们都需要以新的方式处理数据量和各种数据。大数据的速度特性是使IBM成为您的大数据平台的最佳选择的一个关键区别。我们将其定义为从单独批量洞察（Hadoop样式）到批量洞察以及线上流式洞察的必要转变，而IBM似乎是唯一一个谈论速度不仅仅是数据生成速度的供应商（这真的是体积特征的一部分）。

现在想象一个有凝聚力的大数据平台，它可以利用两全其美的优势，并采用流媒体实时洞察力，根据新兴数据产生进一步的研究。在您考虑这一点时，我们确信您将开始分享我们围绕IBM大数据平台提供的独特主张所带来的同样兴奋。

6.仓库中的数据和hadoop中的数据（这不是对比）

根据我们的经验，传统仓库非常适合分析来自各种系统的结构化数据，并通过已知且相对稳定的测量结果产生洞察力。另一方面，我们认为基于Hadoop的平台非常适合处理半结构化和非结构化数据，以及何时需要数据发现过程。这并不是说Hadoop不能用于原始格式的结构化数据;因为它可以，我们在第2章中讨论它。

此外，当您考虑应存储数据的位置时，您需要了解当前数据的存储方式以及持久性选项的特征。考虑您在传统数据仓库中存储数据的经验。通常情况下，这些数据会经过很多严格的操作才能进入仓库。仓库的建造者和消费者在他们的脑海中铭记着他们在仓库中看到的数据必须在质量方面发光; 随后，在准备好分析之前，它通过清理，丰富，匹配，词汇表，元数据，主数据管理，建模和其他服务进行清理。显然，这可能是一个昂贵的过程。由于这笔费用，很明显仓库中的数据不仅具有很高的价值，而且具有广泛的目的：它将会出现并将用于报告和仪表板，其中数据的准确性是关键。例如，2002年推出的萨班斯 - 奥克斯利法案（SOX）合规要求美国交易所上市公司的首席执行官和首席财务官证明其财务报表的准确性（第302条，财务报告的企业责任）。如果报告的数据不准确或“真实”，那么严重（我们在这里谈论监狱时间的可能性）惩罚相关。您是否认为这些人会查看非原始数据的报告？

相比之下，大数据存储库很少经历（至少最初）注入仓库的数据的全部质量控制严格性，因为不仅为一些新的分析方法准备数据，其特点是Hadoop用例成本过高（我们将在下一章谈论），但数据不太可能像数据仓库数据那样分发。我们可以说数据仓库数据足够可信，可以“公开”，而Hadoop数据不那么受信任（公众可能意味着在公司内分布很大，而不是外部消费），虽然这可能会在未来发生变化，今天，这是经验表明这些存储库的特征。

我们的经验还表明，在当今的IT环境中，特定的数据片段已根据其感知价值进行存储，因此超出这些预选片段的任何信息都不可用。这与基于Hadoop的存储库方案形成对比，在该方案中可能存储整个业务实体并且保持Tweet，事务，Facebook帖子等的保真度不变。 Hadoop中的数据今天可能看起来价值很低，或者它的价值未经量化，但它实际上可能是尚未解决的问题的关键。 IT部门挑选和选择高价值数据并通过严格的清理和转换流程，因为他们知道数据每字节具有高知名度（当然是相对短语）。为什么公司会通过如此多的质量控制流程来提供数据？当然，由于每字节的价值很高，企业愿意将其存储在相对较高成本的基础设施上，以实现与最终用户社区的交互式，通常是公共的导航，并且CIO愿意投资清理数据到增加每字节的值。

对于大数据，您应该考虑从相反的角度来看待这个问题：凭借当今数据的所有数量和速度，您无法承担花费所需的时间和资源来正确清理和记录每一段数据，因为它不会经济。更重要的是，您如何知道这些大数据是否有价值？您是否会去找您的首席信息官，并要求她将资本支出（CAPEX）和运营支出

资料编号：[5532]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码