CCIS2014可视化程序一种大数据可视化处理方法外文翻译资料

2022-11-22 16:07:36

英语原文共 5 页，剩余内容已隐藏，支付完成后下载完整资料

CCIS2014可视化程序

一种大数据可视化处理方法

Qunchao Fu1 , Wanheng Liu2* , Tengfei Xue1 , Heng Gu1 ,

Siyue Zhang1 , Cong Wang

1北京邮电大学，北京100876

2中国人民解放军总医院，远程医疗中心，北京，中国

fu92811@gmail.com, 67380112@qq.com, tffeiba@126.com, guheng.xiaoqi@foxmail.com, 312430284@qq.com 2224169954@qq.com

摘要目前的可视化难以适应大数据的增长。本文提出了使用二进制聚合来减少大数据各种数据类型的以便可视化方法。制定降维块的数据存储方案。然后通过多变量数据瓦片对二进制图中的交互式可视化。对于大量的数据，我们切分为很多小块。在进行范围查询时，只需使用该范围的划分的数据段进行拼接。通过减少数据块的大数据，并通过许多多变量数据图块进行分块图之间的交互式检查。

关键字二进制聚合; 多变数据瓦片互动地图; 大数据视觉

1引言

我们处于大数据时代。但大数据是混乱的。然而在混乱中找找清方向从未这么重要。浏览原始数据，可能会是你想起一些东西。数据可视化是表达数据的一种方式可以帮助您找到这些盲点。数据可视化的作用是从查看对象获取知识。对于复杂的大规模数据，现有的统计分析或数据挖掘方法经常被简化和抽象数据打败，隐藏了数据集的实际结构。虽然数据可视化可以恢复甚至增强全局数据结构和具体细节。

但传统的数据可视化工具通常难以控制大数据。大多数可视化工具不用于此刻度。许多数据集太大而不能超过内存容量。对于高维多元数据，统计学和可视化系统分析能力的基本分析不足。

鉴于传统显示分辨率（约1-3百万像素），可视化每个数据点可能导致过度绘制，并可能压倒用户的感知和认知能力。通过采样和滤波来减少数据可能导致失去有趣的结构和异常值。大数据可视化可能导致高延迟，破坏流畅的交互。 [1]

鉴于传统的显示分辨率（约1-3百万像素），可视化每个数据为了可视化显示，我们必须减少数据。我们审查应用程序数据缩减方法，包括过滤，抽样和聚合。我们选择二进制聚合作为我们的主要数据简化策略。

随着可视化尺寸的增加，支持数据的大小可以组合爆发。为了平滑浏览数据，我们需要解决这个问题。预先计算的图像标题，如Google Maps和Hotmap，是可扩展平移和缩放的常见解决方案。而不是生成旨在直接显示的图像块，而是计算多变量数据瓦片：与实现视图相对应的预测。通过将数据集分解成一组二维和三维投影。

本文的方法是介绍使用多变量数据瓦片进行预处理和动态加载数据以实现可扩展的交互。这种性能对数据集是不变的，从数千到数十亿的记录[1]。

2 相关工作

以前的一些研究项目集中在提高可视化系统的可扩展性。

AEuroVis在2013年，作者提出了关于数据可视化的一般规则指南，即视觉感知相互作用的可扩展性和系统的可扩展性只能依赖于可视化的精度，而不依赖于数据的大小[1]。

为了解决感知扩展的问题，我们应该使用过滤，抽样和聚合方法来减少数据大小。可扩展性需要可视化系统实时交互数据查询以进行用户操作。

2.1视觉可扩展性

在许多可视化中，每个数据匹配到每个视觉实体，当高数据密度的结果将导致混乱并不明显时。作为反应，研究人员提出了一些方法。数据点的像素取向可视化被绘制为屏幕的单个像素以最大化利用[2]。空间位移技术和诸如抖动[3]和失真[4]等拓扑结构减少了拥塞，而不是维护空间信息。平行坐标和散点图矩阵维度重新排序也可以减少混乱。如果你经常用来编码alpha混合密度，那么战斗过度绘制。在有效实现图像空间中聚合alpha;混合，而不是数据空间。然而，需要为每个数据记录绘制这些技术，这对于固有的可扩展性限制。

另一种方法是将大数据减少到较小的派生数据，更适合可视化[5]。信息可视化中使用的数据减少策略包括过滤，抽样，收集聚合[6]和模型拟合。

2.2 可视化系统

除了视觉设计，员工和公司开发的大型可视化系统。商业产品，如图片和Spotfire用户交互数据库查询，并可处理大数据推送专用数据库。查询结果通常被收集，这种视觉感知可扩展。这种方法有两个潜在的问题：查询延迟可以是大数据集，高，不能保证结果具有合理的大小上限。两个减少长查询，一些系统基于当前用户的上下文预取[7]。为了提高性能，其他研究人员使用现代硬件多核和GPU计算。

Profiler采用装箱图，以实现与超过一百万个数据点的交互。但是，Profiler使用单个内存中数据立方体和顺序查询处理来支持刷新和链接。正如我们在基准测试中所显示的那样，这种方法不会扩展到更大的数据集。

imMens可以在浏览器客户端上支持数百万的数据量和查询速度，每秒可渲染50帧。并允许数据分析师进行实时检测汇总数十亿的数据记录来刷出这个大数据集。

3 数据维度缩减方法

为了可视化大数据遵循一个总体原则：视觉大数据应受限于可视化数据的选择分辨率，而不是记录数[1]。我们现在调查可以用来实现这个原理的数据缩减方法，包括过滤，抽样，聚合和建模。

我们使用binned聚合作为我们的主要数据简化策略。在这里，我们提出了使用装箱聚合的理由，并讨论了相应的可视化设计空间。

3.1 二进制聚合

通过计算每个预定义的垃圾箱中的数据点数量，Binning聚合数据并可视化密度。数值变量可以定义相邻范围内多个连续仓的间隔。对于分类变量，每个值都可以用作垃圾箱。聚合也可以定义在多种尺度，嵌套，潜在的不均匀的垃圾。例如，聚合时间值，周、月、季、年等。在视觉上，直方图和热图是一维和二维模型的模型。

3.2 二叉树聚集的优势

在本文中使用binned聚合作为主要方法，因为它传达了全局模式和本地特征，通过选择这个大小留下了多层次的分辨率。

3.3滨湖地块的可视化设计

数据库数据类型有四种常用的合并方案：序列号，时间和地理位置。序数和分类数据，每个不同的值是垃圾。我们将数值数据设置为连续范围内的相邻间隔。时间值可以是粒度级别：在口，周，日，小时等。对于地理数据，我们处理单位的1D名称，例如州或国家专有垃圾。如果指定位置的纬度和经度，我们提供其设计的空间坐标。我们主要使用现有的Mercator Tuva提供商的一致性。

根据数据类型和维数可以看出视觉设计摘要。图形的直方图，条形图，线形图和轮廓图的形式的一维绘图序列，数字，时间和地理维度。放弃二维框图变种吃热; 也可能包含异构数据类型。我们专注于包含两个数据维度，编码空间。和用于编码突出齿和链接的颜色密度数据。我们避免其他视觉变量，如纹理或大小，因为它们可能会影响视觉解释。可以以多维显示和网格视图的形式构建多个协调的策划。

图3显示了装箱散点图，两个数字的尺寸。并且，描述了三个装箱方案可以镶嵌图：矩形和六边形箱，由于密度估计，以减少与矩形框相比的偏差。一致应用包装方案1D和2D绘图，以确保执行和绘图之间的兼容性选择。

统计人员已经选择了各种启发式方法来选择数字范围的仓库大小。这些启发式可能会有很大差异，哪个适合大数据不清楚。

4二元地块相互作用

互动对于探索性视觉分析至关重要。尽管每种垃圾在图表类型前面可以显示一个或两个聚合维度，但更多的数据需要分辨率支持交互。平移和缩放可能需要更细粒度的垃圾。

刷新和链接，在其他视图中的视图对应数据中突出显示，您需要计算总量的过滤以选择初始数据。这些查询需要放弃计算过滤聚合的数据部分。这些查询被发送到服务器进程，并由于网络延迟而导致延迟，并且可以容易地与超过100毫秒的阈值响应进行交互[12]。此外，多个客户端可能会超载服务器。

在本节中，我们使用少量疾病连接的刷和链接数据集作为操作的示例。原始疾病的数据很少五个方面：性别，年龄，位置，情况和访问时间。图2显示了来自不同角度的四个子坦克视觉数据的描述。地理热图（X，Y）是墨卡托投影经度，纬度坐标为基础; 三个图表显示年龄，性别，疾病检查分布的数据和时间段。选择疾病直方图。作为响应，相应的数据在另一个直方图中突出显示，颜色和地理热图仅显示在该位置。

4.1密集和稀疏的数据存储

数据瓷砖您可以使用稀疏或密集的包装解决方案。在索引中排序的稀疏表示和值，只有非零仓（图4）。包括紧凑表示零值，但是如果计算的所有维度都已知（图4），则所有数据可能存储为简单数组。如果一个数据块有很多空的垃圾，稀疏表示可以降低存储成本。例如，使用全数据立方体分析器[13] 5维的稀疏包。

然而，随着数据记录数量的增加，数据密度通常会增加。一旦盒子超过一个非零阈值比例（10瓦为4D瓦片，15瓦为3D瓦片），密集的表示效率更高，因为我们忽略了这个指标。

4.2交互中的数据平铺应用

将用于聚合X、Y、月、日、小时，有五维立方体。数据多维数据集包含与最低级别可视化的分辨率有关的数据。从位置的疾病直方图执行刷牙和链接，我们可以过滤数据立方体卷沿线，只有摘要数据X，Y维度，如果疾病维度和执行中的值0。窄的，我们可以聚合相邻的bin来计算一个粗粒度的投影。在当前窗口中可视化的涉及垃圾的翻译级别查询的最前沿。

4.3实验

解放军总医院提供的种族资料。选定民族自治地方，民族自治州或乡镇为数据区作为调查区。对于每个国家，选择城市社区和乡镇的相对集中作为样本，并得到所有常住人口的相关数据。

近年来，住院病人频谱数据采集调查人群，通过住院和新型农村合作医疗保险管理系统的基本信息，到医院医疗记录中提取数据。医院包括乡镇医院，国家医院（人民医院，医院，妇幼卫生院）和全市小学和中小学三等医院。住院病人频谱调查包括患者的基本信息，疾病诊断及预后及诊断依据等。

一个完整的数据立方体通常对内存和查询过多。随着尺寸或垃圾数量的增加，数据立方体大小可能会变得笨拙。为了解决这个问题，我们完成的立方体被分解成所谓的最大四维。

分解后，如果大量箱子，所谓的个人可能仍然非常大。在某些情节中，我们可以将此计数作为一个自由参数，并进行相应的调整。对于其他人，特别是地理热图，我们可能需要放大以查看细粒度的细节，缩放级别需要将bin数量加倍。计数过程较大，我们形成了不同段的数据块范围。

概念图数据块应用于系统，如Google Maps和Hot Map。然而，数据块在两个重要方面是不同的。首先，它们提供动态数据可视化，而不是预呈现的图像。其次，它们包含多维数据查询选择瓦片，我们可以动态计算出投影数据的查询和渲染。图5显示了具有颜色突出显示的图块的地理边界。

少数民族可视化疾病如图5所示，民族疾病资料包括患者性别，年龄，位置，情况和访视时间，代表月、日、时三维投影的访问时间，以及地点、疾病、年龄和性别，患者在地图投影和3图表。提前多个数据块，然后按客户端和可视化的服务器端处理负载的需求。

刷新和链接涉及聚合这些数据瓦片。例如，当用户选择地图上的区域时，性别，年龄和疾病数据显示在三个图表的右侧。交互动作如移动和缩放，它将动态抓住事先处理数据块。

最糟糕的时候，所选择的地理区域覆盖四块地图砖垃圾。我们需要一个直方图，通过对结果求和来显示滚动投影数据块的日期，包含四个X * Y尺寸。

5总结

在本文中，介绍了一个用于大数据可视化显示的数据处理方法。它提供数据缩减方法来支持大数据的可视化摘要，并检查设计空间是大面积的多维数据。用于交互，预先计算多元数据瓦片和并行处理。

本文的一个局限性是缺少上述四个方面的综合。而不同地点之间缺乏比较数据。例如，在少数民族可视化的疾病中，用户可能想要调查两个地区之间的不同发生率，不能满足用户需求。为此，他们可能会打开两个浏览器，并减少用户体验的程度。目前这种复杂的查询需要计算5维数据瓦片大小的增长。然而，一旦查询变得高度选择性，减少数据大小的过滤器大小可能会允许服务器查询和生成更敏感的动态图块。

参考文献

[1] Zhicheng Liu, Biye Jiang, Jeffrey Heer. inMens: Real-time Visual Querying of Big Data. Computer Graphic Froum (Proc. EuroVis), 32(3), 2013

[2]KEIMD.A.Designing pixel-oriented visualization techniques: Theory and applications. IEEE TVCG 6, 1 (2000), 59–78.

[3] TRUTSCHL M., GRINSTEIN G., CVEK U. Intelligently resolving point occlusion. InProceedings of InfoVis(Oct.2003), pp. 131–136. [4] KEIM D. A., HAO M. C., DAYAL U., JANETZKO H., BAK P. Generalized scatter plots. Information Visualization 9,4 (2010), 301–311. [5] DEBRABANT J., BATTLE L., CETIN

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[26617]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码