一个大数据调查报告外文翻译资料

2022-10-25 12:03:58

英语原文共 39 页，剩余内容已隐藏，支付完成后下载完整资料

一个大数据调查报告

陈敏，毛诗雯，刘云浩

摘要：在本文中，我们回顾大数据的背景和最新发展状况。我们首先介绍大数据的一般背景及相关技术，比如云计算，物联网，数据中心和Hadoop。然后我们专注于大数据价值链的四个阶段，即数据生成、数据采集、数据存储和数据分析。对于每一个阶段，我们介绍背景，讨论其技术难题，以及回顾最新进展。最后我们介绍了几个大数据的代表性应用，包括企业管理，物联网，在线社交网络，媒体应用，集成智能，智能电网。这些讨论的目的是提供大数据的全面综述和让读者感兴趣的大数据蓝图。本次调查还包括了未解决的问题和未来方向的讨论。

关键词：大数据；云计算；物联网；数据中心；Hadoop；智能电网；大数据分析

1 背景

1.1 大数据时代的曙光

在过去20年，各个领域的数据都大规模的增加。根据国际数据公司（IDC）的报告，在2011年整体创建和复制的数据量是1.8ZB（asymp;10²¹B），在五年内增长了9倍，在未来每两年增加一倍。

在全球数据爆炸性的增长下，大数据这个词主要用来描述数据集。与传统的数据相比，大数据包括非结构化的数据，这就需要更多的实时分析。此外，大数据为发现新价值带来了新的机会，帮助我们获得数据更深层次的隐藏价值，同时带来新的难题，比如：如何有效的组织和管理这样的数据集。

近年来，各行业发现了大数据的高潜力，许多政府机构宣布重大计划，加快大数据的研究和应用。此外，公共媒体也关注大数据，如经济学人，纽约时报和美国国家公共广播电台，两家主要的科学期刊：自然和科学，也开设了特别专栏讨论大数据的难题和影响。大数据时代已经到来毫无疑问。

如今，与互联网公司服务相关的大数据快速增长。例如：谷歌处理的数据有数百PB，Facebook网每个月产生的日志超过10PB，中国公司百度产生的过程数据超过数十PB，阿里巴巴的子公司淘宝，，每一天网上交易的数据有数十TB。

图1说明了全球数据量的激增，大数据集的数量大幅上升，它也带来了许多具有挑战性的问题，具体如下：

-信息技术（IT）的高速发展更容易产生数据，比如每分钟平均有72小时的视频被上传到YouTube，因此，我们面临的主要挑战是收集和整合来自广泛分布的数据源的大量的数据。

-云计算和物联网（IOT）的快速增长，进一步推动了数据的急速增长。云计算为数据资产和访问网站提供了安全保障，在物联网的范例中，世界各地的传感器收集和传输数据通过云来进行存储和处理。这样的数据在数量和相互关系上将远远超过现有企业的IT架构和基础设施的能力，其实时性要求也将极大地强调可用的计算能力。日益增长的数据对硬件和软件基础设施提出更高的要求，如何存储和管理这样巨大的异构数据集成了难题。

-考虑大数据的异构性、可扩展性、实时性、复杂性和保密性，在分析、建模、可视化和预测的过程中，有效地“挖掘”数据集，从而揭示其内在属性，完善决策。

1.2 大数据的定义和特征

大数据是一个抽象的概念，除了大量的数据，它还具有一些其他的功能，这就决定了它本身和“海量数据”或“巨大数据”的区别。目前，尽管大数据的重要性已经得到了普遍的认可，但是对于定义人们仍有不同的看法。在一般情况下，大数据是指在传统的IT和软件/硬件工具在可承受的时间内进行捕捉，管理和处理的数据集合。由于不同的关注点，科技型企业，研究学者，数据分析和技术从业者有不同的大数据的定义。下面的定义可以帮助我们更好地理解大数据在社会和经济里的技术内涵。

在2010年，Apache Hadoop的大数据定义为：大数据是不能被普通的计算机在可接受的时间内捕获，管理和处理的数据集。在这一定义的基础上，2011年5月，一家全球性的咨询机构麦肯锡公司宣布将大数据作为下一个创新竞争和提高生产力的点。大数据将意味着这些数据集不能由经典的数据库软件获取、存储和管理。这个定义包括2个含义：第一，符合大数据标准的数据集的数量正在改变，并且可能随着时间的推移或技术的进步而发展；其次，在不同的应用程序中，符合大数据标准的数据集各不相同。目前，大数据的存储空间范围由几个TB到几个PB。从麦肯锡公司的定义中可以看出，数据集的体积并不是大数据的唯一标准。传统的数据库技术无法处理的数据规模越来越大以及管理技术也成为接下来两个关键的难点。

事实上，早在2001年大数据就已经被定义了，META分析师Dough Laney（现高德纳公司）在一个报告中通过3VS模型将大数据定义为挑战和机遇，即增加的体积、速度和类型。虽然这种模式最初不是用来定义大数据的，高德纳和其他许多企业，包括IBM和微软一些研究部门在接下来的十年里仍采用“3Vs模型”描述大数据。“3Vs”模型中，体积随着大量数据的产生和收集数据的规模越来越大；速度意味着大数据具体的时效性，数据的收集和分析等必须迅速及时地进行，从而最大限度地利用大数据的商业价值；类型指数据的各种类型，包括半结构化和非结构化数据，如音频、视频、网页、文本以及传统的结构化数据。

然而，其他人有不同的意见，包括大数据及其研究领域最有影响力的领袖IDC。在2011年，IDC的报告中定义大数据为：“大数据技术建立了一种新的技术和架构，旨在从经济中各种各样的数据中高速度捕捉、发现和分析提取价值。”根据这个定义，大数据的特点可以概括为4VS，即体积（大体积）、种类（各种形式）、速度（快速生成）和价值（大价值低密度），如图2所示。这个4Vs定义被广泛认可因为凸显了大数据的意义和在探索隐藏的巨大价值方面的必要性。这个定义指明了大数据中最关键的问题，即如何从一个巨大的多样的数据类型及快速生成数据集中发现需要的值。就像Facebook网副总工程师Jay Parikh说，“如果不利用收集到的数据你只能拥有一堆数据而非大数据。”

此外，美国国家标准技术研究所（NIST）定义大数据为：“大数据意味着数据量，数据采集速度或数据表示方法使用传统的关系方法不能进行有效的分析的数据，这可能是有效的处理与重要的水平缩放技术”其重点是在有效处理大数据技术方面。它表明，有效的方法或技术需要开发并用于分析和处理大数据。

已经有相当多的来自工业界和学术界对大数据的定义的讨论，除了制定一个适当的定义，大数据的研究应集中在如何提取它的价值，如何利用数据，如何将“一堆数据”处理成“大数据”。

1.3 大数据的价值

麦肯锡公司在深入研究美国医疗保健、欧盟公共部门管理、美国零售业、全球制造业以及全球个人定位数据后，观察到了数据的巨大价值。通过对代表全球经济的五大核心产业的研究，麦肯锡报告指出，大数据可以充分发挥经济功能，提高企业和公共部门的生产率和竞争力，为消费者创造巨大利益。在报告中，麦肯锡总结了大数据可以创造的价值：如果大数据可以有效地利用，可以提高效率和质量，发掘其潜在的价值。美国医疗行业通过大数据可能节省超过3000亿美元，从而减少了美国医疗保健投入的8%以上；充分利用大数据的零售商可能会提高他们的利润超过60%；大数据也可以被用来提高政府的效率，如欧洲发达经济体可以节省超过1000亿欧元（不包括减少欺诈、错误和税收差异影响）。

麦肯锡公司的报告被认为是具有前瞻性和预测性的，而以下事实可以验证大数据的价值。2009年流感大流行期间，谷歌获得及时的信息，通过大数据分析，发现了比由疾病预防中心提供的更有价值的信息：几乎所有国家所属的医院通知机构如疾病预防中心没有发现的新类型流感病例。病人在感染时通常没有立即看医生，同时医院到疾病预防中心分析和总结这些信息也花了一些时间，因此，当公众意识到新类型的流行病流行性感冒时，这种疾病可能已经传播了1到2周，具有滞后性。谷歌发现，在流感的传播过程中，搜索引擎经常会出现不同于平时的情况，条目的使用频率与流感的传播时间和地点，谷歌根据45个搜索进入组密切相关的流感疫情，并纳入他们在特定的数学模型，预测流感的蔓延，甚至预测流感传播的地方，相关研究成果发表于自然。

2008年微软收购了以机票预测系统为主的Farecast公司，预测机票价格上升/下降的趋势和范围，该系统已被纳入微软的必应搜索引擎。到2012年时，该系统已为每名乘客节省近50美元，预测精度高达75%。

目前，数据已经成为一种可以与物质资产和人力资本并列的重要生产要素，随着多媒体、社交媒体和物联网的发展，企业将收集更多的信息，这些信息是指数增长的数据量。大数据将有巨大的和不断增加的潜力，为企业和消费者创造更大的价值。

1.4 大数据的发展

在20世纪70年代末，出现了“数据库机器”的概念，这是一种专门用于存储和分析数据的技术。随着数据量的增加，单个主机系统的存储和处理能力变得不充分。在20世纪80年代，人们提出了“无共享”的并行数据库系统，以满足日益增长的数据量，共享系统架构是基于集群的使用，每个机器都有自己的处理器、存储和磁盘。Teradata系统是第一个成功的商业并行数据库系统，最近这样的数据库变得非常流行。1986年6月2日，一个具有里程碑意义的事件发生时，Teradata交付第一并行数据库系统的存储容量是1TB，帮助大型零售企业凯马特在北美扩展其数据仓库。在20世纪90年代末，并行数据库的优势在数据库领域得到了广泛的认可。

然而，许多大数据的挑战出现了。随着互联网服务的发展索引和查询的内容迅速增长。因此，搜索引擎公司不得不面对这些挑战。谷歌创造了GFS 和MapReduce编程模型处理所带来的数据管理和分析在互联网规模的挑战。此外，由用户、传感器和其他无处不在的数据源生成的数据流增多，这需要计算架构和大规模数据处理机制发生根本变化。2007年1月，一个数据库软件的先驱者 Jim Gray称这种转变“第四范式”，他还认为，应对这种范式的唯一途径是开发新一代的计算工具来管理、可视化和分析这海量的数据。2011年6月，另一个具有里程碑意义的事件发生；EMC / IDC发表题为从混乱中提取值的研究报告，其中首次介绍了大数据概念和潜力，研究报告引起了业界和学术界对大数据的极大兴趣。

在过去的几年中，几乎所有的大公司包括EMC、Oracle、IBM、微软、谷歌、亚马逊、Facebook网等都已经开始了他们的大数据项目。以IBM为例，自2005年以来，IBM已经投入160亿美元收购与大数据相关的30多家公司。在学术界，大数据也被广泛关注。在2008年，自然发表了一个大数据的特殊问题，在2011年，科学也推出了一个特殊的问题，大数据“数据处理”的关键技术，2012年欧洲信息学与数学研究协会（ERCIM）新闻发布了大数据的一个特殊问题。在2012年初，一份题为“大数据大影响”的文章在瑞士的达沃斯论坛发布，标志着大数据已成为一种新的如黄金和货币的经济资产，国际研究机构高德纳公司发布了从2012到2013的曲线成熟度，分为大数据计算、社会分析和存储的数据分析等48项值得大家关注的新兴技术。

许多国家的政府如美国也非常重视大数据。在2012年3月，奥巴马政府宣布了2亿美元的投资，推出“大数据研究和发展计划”，这是一个在1993年“信息高速公路”倡议后第二次重大科技发展倡议。2012年7月，日本内政部发布的“信息通信技术”项目表明，大数据的发展应该是一个国家战略和应用技术的重点。在2012年7月，联合国发布了大数据的发展报告，总结了政府如何利用大数据更好地为人民服务和保护他们的人民。

1.5 大数据的难点

在大数据时代，急剧增长的数据是对数据采集、存储、管理和分析的巨大挑战，传统的数据管理和分析系统都是建立在关系数据库的基础上的管理系统（RDBMS）。然而这样的关系数据库管理系统只适用于结构化数据、半结构化或非结构化的数据。此外，RDBMS越来越多地利用越来越昂贵的硬件。显然，传统的关系数据库管理系统无法处理巨大的数据流量和异质性的大数据。研究界从不同的角度提出了一些解决方案。例如，云计算在成本效率、弹性、平滑的对基础设施顺利升级/降级是满足大数据的要求的。对于大规模无序数据的永久存储和管理，分布式文件系统和NoSQL数据库等编程框架都是不错的解决方案，取得了处理集群任务的巨大成功，特别是对网页进行排名。基于这些创新的技术或平台，可以开发各种大数据应用程序。此外，它是不平凡的大数据部署分析系统。

大数据应用程序开发面临的主要困难如下：

-数据表示：许多数据集在类型、结构、语义、组织、空间和可访问性上都存在一定的异质性。数据表示的目的是使数据在计算机分析和用户解释上更有意义。然而不恰当的数据表示将减少原始数据的值，甚至可能阻碍有效的数据分析，有效的数据表示方式应反映数据结构、类、类型以及集成技术，以便在不同的数据集上进行高效的操作。

-冗余数据压缩和数据压缩：数据集的冗余度高，冗余约减和数据压缩是有效降低整个系统的空间成本的前提下，不影响数据的潜在价值。例如，大多数传感器网络所产生的数据是高度冗余的，它可以被大量的过滤和压缩。

-数据生命周期管理：与相对缓慢的存储系统的进步相比，普适感测和计算机生成数据以前所未有的速度和规模增长。我们面临着巨大的挑战，其中一个问题就是当前的存储系统不能支持这样海量数据的存储，一般而言，大数据的隐藏数据新鲜度，因此，应制定一个与分析值相关的数据重要性原则，以决定将数据存储和哪些数据丢弃。

-分析机制：大数据分析系统是在有限时间内处理大量的数据。传统的关系数据库管理系统，严格的设计和缺乏可扩展性，不能满足数据处理的条件。非关系型数据库在非结构化数据的处理中显示出其独特的优势，开始成为大数据分析的主流。即便如此，非关系型数据库在性能和特殊应用仍存在一些问题。我们要在关系型数据库和非关系型数据库间的找到一个妥善的解决方案。例如，一些企业使用了一个混合的数据库架构，集成了这两种类型的数据库的优点（例如Facebook网和淘宝）。在内存数据库和基于近似分析的样本数据的基础上，需要进行更多的研究。

-数据机密性：大多数大数据服务供应商或业主目前因为其有限的容量无法有效地维护和分析这些巨大的数据集。他们

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[151857]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码