数据科学家：未来的工程师外文翻译资料

2022-09-07 14:47:00

英语原文共 15 页，剩余内容已隐藏，支付完成后下载完整资料

数据科学家：未来的工程师

作者：WilM.P.vander Aalst

摘要

虽然我们的存储和处理数据的能力一直在增加，从20世纪60年代开始，许多组织突然意识到生存是不可能不利用现有的智能数据。不知不觉“大数据”已成为董事会层面讨论的话题。大量的数据将改变许多行业的工作。此外，科学研究也变得更加数据驱动。因此，我们反思新兴的数据科学纪律。就像计算机科学从数学成为一门新学科，学电脑变得丰富时，我们看到数据的诞生，科学作为一门新兴学科，可用的数据洪流驱动的今天。我们相信科学家将是未来的工程师。因此，埃因霍温科技大学（TU/ E）建立埃因霍温（DSC/E）数据科学中心。本文讨论了数据科学学科和激励的重要性。

关键词: 数据科学、大数据、工艺开采、数据挖掘、视觉分析、物联网

1一直在：任何事，任何时间，任何地方

在文献[9]的描述中，社会在短短的几年从“模拟”转移到“数字”。这对我们商务和交流的方式有一个令人难以置信的影响^[12]。社会、组织和人“一直在”。数据收集任何东西，在任何时间，任何地方。Gartner词语“Nexus的力量”指的是融合和相互依存的社会，强调四趋势：社会、移动、云、和信息^{[ 10 ]}。“大数据”经常被用来指的惊人增长数据最近几年。然而，最终的目标是不收集更多的数据，但反过来数据转化为真实值。这意味着应该用于改善现有的数据产品、过程和服务,或者启用新的关系。事件数据是最重要的信息来源，事件可能发生在一个机器（如一个x光机或行李处理系统),一个企业内部信息系统(如客户订单),在医院(如血液分析样本),在一个社交网络(如交换电子邮件或twitter信息),在一个交通系统(如检查、买票,或者通过收费站)等等。事件可能是“生活事件”,“机器”事件,或两者兼而有之。我们使用互联网事件的术语(IoE)来指代所有事件数据。

IoE组成:

bull;互联网的内容(IoC):由人类增加的所有信息知识在特定主题。国际奥委会包括传统的网页,文章,百科全书像维基百科,YouTube,电子书,新闻等。

bull;互联网的人(IoP):社会互动相关的所有数据。包括电子邮件、facebook、twitter、论坛、LinkedIn等。

bull;互联网的事情(IoT):所有物理对象连接到网络的物联网，包含所有的事情有一个唯一的id和一个网络化的存在结构。事情可能有一个互联网连接或使用无线电标记射频识别技术(RFID),近场通讯(NFC),等等。

bull;互联网的地点(IoL):是指所有的数据,有一个空间维度。移动设备的吸收(如智能手机)越来越多的事件地理空间属性。

注意IoC、IoP、IoT、IoL是部分重叠。举个例子,一个地名在网页或推特的位置，看到IoP和IoL的混合物。内容、人、事情和地点一起构成IoE,如图1所示。

数据科学的目标是使用图1中描述的不同数据源的回答，问题分为以下四类:

bull;报告:发生了什么事?

bull;诊断:它为什么会发生?

bull;预测:会发生什么?

bull;建议:最好的可能发生的事情是什么?

上述问题是非常通用的,可以应用于不同域。维基百科中说“数据科学包含了不同的元素和建立在技术和理论的很多领域，包括数学、统计、数据工程、模式识别和学习先进的计算、可视化、不确定性建模、数据仓库和高性能计算的目的,从数据中提取意义,创造数据产品^[21]。许多已经提出替代数据科学的定义。简短概述数据科学的历史,我们参考[17]。

图1.网络事件(IoE)是基于互联网的内容(IoC),互联网的人(IoP),物联网(物联网),和互联网的地点(IoL)

其余部分如下陈述。在第2节中，我们讨论前所未有增长(事件)的数据,并把它放在历史的角度来看。第3节比较数据,其次是第4节讨论这个新石油的价值。第5节描述数据科学家的所需的功能。第6节列出了可用的一些核心技术,将数据转换成结果。最后,在7节描述数据科学中心最近建立了埃因霍(DSC/e)。

2我们的增长能力来存储的过程和交换数据

图1描述了不同来源的数据导致的互联网事件(IoE)。作为一个例子,现代智能手机像iPhone5s，图2所示这样的手机有许多传感器。这些可以用来收集各种各样的主题,从位置数据(基于GPS)使用。很难估计准确的增长数据。一些人认为人类创造了5eb(即50亿g)的数据，从石器时代直到2003年,在2011年创建的数据量现在(2013年)每2天大约需要10分钟生成5eb^[18]。扩大信息系统和其他系统的功能取决于用摩尔定律计算。英特尔的创始人之一戈登·摩尔,在1965年预测,在集成电路组件的数量是每两年增加一倍。在过去的五十年里增长确实是指数,尽管速度稍慢。例如,如图3所示对集成电路的晶体管数量每两年增加一倍单位成本,磁盘容量、性能的计算机每像素的数量美元等增长速度类似。

图2.现代智能手机有许多传感器,可以被用来收集数据

注意图3使用对数刻度:芯片上的晶体管的数量增加了一个因素2^40/2= 1048576，超过40年的时间。要真正掌握这发展,让我们举例说明此使用一些比较。如果火车像电脑芯片开发,现在我们可以坐火车从埃因霍温阿姆斯特丹大约5ms(1.5h除以2^40/2)。飞机能飞从阿姆斯特丹到纽约在24ms(7h除以2^40/2),我们开车全世界只使用38毫升汽油。这些例子说明了壮观的发展相关联的摩尔定律。

3大数据作为新能源

数据科学致力于回答问题如“发生了什么事?”、“为什么它发生什么?”、“会发生什么?”、“可能发生的最好的是什么?”。要做这样,各种分析技术已经开发出来。然而,这样的技术只能应用如果正确的输入数据是可用的。分析没有合适的数据就像跑车没有汽油。事实上,已经2006年克莱夫·亨伯(Dunnhumby创始人之一)宣称:“数据是新的石油”。然而,直到最近很明显,数据确实是不可思议的经济和社会价值。

使用隐喻“data =油”我们可以明确地看到相似之处:

bull;探索:就像我们需要找到石油,我们需要找到相关数据我们可以提取它。

bull;提取:定位数据后,我们需要提取它。

bull;变换:清洁、过滤和聚合数据。

bull;存储:存储的数据需要可能是具有挑战性的,如果它是巨大的。

bull;交通:让数据对的人、组织或软件工具。

bull;用法:开车时消耗的石油。同样,提供分析结果需要数据。

图3.摩尔定律不仅适用于一个芯片上的晶体管的指数增长:

它也适用于处理器速度、通信速度、硬盘存储空间,像素上屏幕

所以探索原油的不同阶段也用它来开车适用于数据科学。然而,也有重要的数据之间的差异:

bull;复制数据是相对简单和廉价。是不可能简单地复制一个像油产品。(否则天然气价格不会太高)。

bull;数据是特定的,即,它涉及到一个特定的事件、对象和/或时期。不同的数据元素不交换。去加油站时,这是非常不同,滴油不预先分配特定的汽车在特定的一天。

生产的数据很少。通常,数据元素独特的,因此很难提前生产。

bull;通常,数据存储和运输很便宜(除非真的是“大的数据数据”)。在通信网络中数据可能旅行(几乎)的速度光和存储成本远低于石油的存储成本。

前面已经指出,摩尔定律并不适用于古典的手段汽车运输、反式或平面(参看速度、燃料消耗等等)摩尔定律已经多次错误的预测。然而很明显,法律的终极限制出现在眼前。不能在某个阶段晶体管做出任何较小和时钟速度不能进一步增加。因此,才能跟上不断增长的存储需求和沟通是增加数量的计算实体。看到越来越多的核心在处理器和趋势使用大型集群的硬件Hadoop的上下文。考虑例如谷歌。而不是依靠昂贵专有的硬件存储和处理数据,谷歌使用行业标准服务器,存储和处理数据,并能通过使用规模没有限制分布式并行处理。这样的大规模并行处理的结果在一个巨大的能源消耗。这就是为什么谷歌投资于可再生能源并决定在其数据中心的位置根据可用性的能量来源。

能源成本和硬件也影响基础设施的成本最适合大规模数据科学应用。图4显示了进化存储的成本。低线指的是降低成本的磁盘存储。然而,如图4所示，内存中存储的成本减少速度类似。因此,当前内存中存储的价格与磁盘存储的几年前的价格。这就解释了内存数据库和内存分析的兴趣也日渐浓厚。现在成为负担得起在主内存加载整个数据库。SAPHANA内存中计算平台[16]说明了这一趋势。

为了理解将数据存储在正确的地方的重要性,考虑Xeon英特尔芯片的特征图5所示。如果CPU需要一个数据元素和它可以在L1缓存,那么这只需要1.5ns。假设这对应于一个90厘米的距离。如果数据不是在L1缓存中,但在主内存,那么这需60ns。这对应于一个36米的距离(使用我们之前假设90厘米= 1.5ns)。如果数据不是在主内存,但是在固态硬盘(SSD),那么这需要200.000 ns。这对应

120公里的距离。把数据从一个普通硬盘10.000.000 ns和对应于一个6000公里的距离。因此,转移数据从硬盘到主内存可能会导致令人难以置信的加速。

拥有正确的“石油基础设施”是至关重要的科学数据。此外,创新的硬件和软件基础设施(如Hadoop)允许类型的分析之前棘手。当使用MapReduce和技术使用Hadoop分布式计算基础设施,我们正试图优化校准数据和计算之间(如将计算带入数据而不是将数据带入计算)。

4数据的价值

在[4]中,每个用户的价值被分裂的市值计算用户数量为所有主要互联网公司(谷歌、Facebook、Twitter等)。本研究(2012年)说明了数据的潜在价值。大多数用户账户有价值超过100美元。通过网站www.twalue.com甚至可以计算一个特定的twitter账户的价值,例如:,作者的twitter账户(@wvdaalst)估计价值为321美元。添加了一个典型的青少年可能产生的价值1000美元的不同社交媒体账户。这些数字不应该采取非常严肃,但是他们很好地说明人们不应低估的价值数据。“如果你不的产品,你的产品!”是用来让互联网用户意识到价值的信息。组织像谷歌、Facebook和Twitter大量的钱花在维护一个基础设施。然而,终端用户不直接支付它。相反,他们提供内容和接受广告。这意味着其他组织的维护基础设施的成本换取用户数据。

图4比较不同类型的存储的成本随着时间的推移(取自[13])

图5新的石油怎么走吗?有关内存计算的能力是显而易见的

旅行距离所需的时间获取计算机中的数据

互联网是启用新的商业模式依赖数据的科学。一些例子:

bull;连接病人有类似的医疗问题,PatientsLikeMe.com出售这些信息专业人士。基于社区的平台共享信息转卖给第三方。

bull;Groupon.com提供了一个代理平台,客户可以得到一个折扣购买作为一个群体。如果交易发生,Groupon的部分收入。

bull;AirBnb.com连接的人,这样他们就可以出租的客房另一个地方。AirBnb得到佣金。

在所有情况下的数据是用来连接人们和组织信息,产品或服务交换。

除了启用新的商业模式,数据科学可以用来做事情更快更高效。此外,数据科学在客户中起着举足轻重的作用关系管理(CRM)。例如,数据来自不同的信息来源(网站、销售支持,售后,和社交媒体)用于映射和分析所谓的客户旅程。组织可以使用分析最大化的机会来自客户的每一次互动与他们。忠诚的客户更成本有效的保留获得新的,因为他们可能会购买更多的产品和服务,不太可能离开,并可能有助于促进品牌。

优化客户的旅程是一个组织的许多方面受益于科学数据,从数据中提取价值。竞争加剧使数据科学的一个关键的区别。组织不明智的使用数据,就活不下去。这是说明了各种研究。看到例如贝恩公司(Bain amp; Company)的结果的研究[15]图6所示。我们相信的未来的组织竞争分析。

5数据科学家:21的最性感的工作世纪

谷歌首席经济学家哈尔bull;瓦里安(Hal Varian 2009年说:“最性感的工作在未来10年将统计学家。人们认为我是在开玩笑,但已经猜到了电脑工程师是1990年代最性感的工作?”。后,文章“数据科学家:21世纪最性感的工作”^[7]数据科学家讨论新兴的必要性。这是被一些媒体和在分析职位空缺时,一个迅速确实可以看到不断增长的需求对数据科学家(参见图7)。

图6适者生存:贝恩公司的一项研究结果表明公司最好的数据科学能力超越竞争对手^[15]

图7数据科学家的需求正在增长

图8数据的剖面图

科学家:不同分支学科相结合呈现一个工程师,量化和技术技能、创造力和交际,能够实现端到端解决方案

那么什么是数据科学家?已经提出许多定义。为示例中,[7]中“数据科学家们了解如何鱼的人重要的业务问题的答案从今天非结构化的海啸信息”。图8描述了数据科学家的理想形象。如图所示,多学科的科学数据。此外,图8中清楚地表明,数据科学比分析/统计数据。它还包括行为/社会科学(例如,道德和理解人类行为),工业工程(如值数据和了解新的商业模式),和可视化。就像大数据超过MapReduce,数据科学不仅仅是矿业。

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[146628]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码