登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 理工学类 > 自动化 > 正文

ZabbiX下ALICE数据采集系统的性能监测外文翻译资料

 2022-11-19 02:11  

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


毕业论文(设计)

英文翻译

原文标题System performance monitoring of the ALICE Data Acquisition System with Zabbix

二O一八 年 四 月 五 日

ZabbiX下ALICE数据采集系统的性能监测

A. Telesca1, F. Carena1, W. Carena1, S. Chapeland1,

V. Chibante Barroso1, F. Costa1, E. Denes2, R. Divi_x0012_a1, U. Fuchs1,

A. Grigore1;3, C. Ionita1, C. Delort1, G. Simonetti1;4, C. Soos1,

P. Vande Vyvre1, and B. von Haller1 for the ALICE collaboration

1欧洲核研究组织(CERN),日内瓦,瑞士

2 KFKI粒子和核物理研究所,维格纳研究中心,布达佩斯,匈牙利,罗马尼亚布加勒斯特布加勒斯特

3波利特尼卡大学意大利

4,Bari,梅林

摘要:ALICE(一个大的离子对撞机实验)是一个重离子探测器研究强相互作用物质的物理和夸克胶子等离子体在欧洲核子研究中心LHC(大Hadron Collider).ALICE数据采集(DAQ)系统处理来自子探测器电子学的数据流到CERN计算中心的永久数据存储.DAQ由大约1000种不同类型的设备组成,从直接可访问的机器到存储阵列和定制的光链路.在LHC运行1期间使用的系统性能监视工具将被用于运行2的新工具所取代.本文展示了评估结果已经进行了六个公开可用的监测工具.

通过考虑可扩展性、灵活性、可靠性以及数据收集方法和显示等选择标准来进行评价.所有工具都根据这些标准进行了原型化和评估.我们将描述导致对DAQ的ZabBIX监控工具的选择的考虑因素.将在ALICE DAQ实验室进行的测试结果将被呈现.另外,将描述在DAQ机器上的软件在度量收集和数据收集方法方面的部署.我们将通过使用基于SNMP的代理以及如何检索和显示DAQ SPECIC度量来说明如何使用ZabBIX监视远程节点.我们还将展示如何通过图形用户界面访问监视信息并使其可用,以及Zabbix如何与其他DAQ在线系统通信以进行通知和报告.

1.介绍

1.1ALICE实验及其数据采集系统ALICE(大离子对撞机实验)〔1〕是CERN LHC的一种通用的重离子探测器,用于研究强相互作用物质的物理和核-核碰撞中的夸克-胶子等离子体.它由18个不同的探测器和主要的在线系统组成,其中数据采集是一部分.ALICE数据采集系统〔2〕负责处理从子探测器读出电子学到CERN计算机中心磁带上存档的完整数据流.数据块(数据来自光学探测器左左DDL)连通的子探测器是由一个电子计算机汇总第一水平.successively,数据发送到第二阶段,他们在处理和录制到磁盘阵列,格式化完成之前迁移到永久存储.

1.2ALICEDAQ

这些任务由安装在ALICEDAQ中的节点执行,这些节点由大约1000种不同类型的设备组成.ALICEDAQ的系统监控已经在运行1中由Lime[3 ]执行.考虑到CERN提供的长期柠檬支持变得不确定,新的工具具有有趣的功能,我们决定研究ALICE的DAQ系统监测的选项DERERTENT.ALICEDAQ节点根据它们在数据流中所扮演的角色进行分类.LDCS(本地数据集中器)负责将数据片段聚合成子空间.GDCS(全球数据收集器)执行完整的事件建立,并连接到存储区域网络(SAN),用于将数据传送到临时数据存储(TDS),其由用于临时存储的磁盘阵列组成.DQM(数据质量监测)和DA(检测器算法)机分别负责探测器的数据质量监测和校准任务.此外,还有基础设施设备,如网络交换机、配电单元(PDU)、数据库和Web服务器,以及其他与DAQ相关的角色.DAQ设备也可以分为两大类:可以直接访问并允许脚本执行的节点(即负责数据聚合、记录、数据质量监控等的Linux主机)和不允许直接编程访问的远程节点(即NE).Turbo路由器、磁盘阵列和PDU,其监控参数可以通过SNMP或命令行接口检索.ALICEDAQ中的设备数量将随着LHC的两个关闭周期和相关的实验升级而增加,并且估计在2018达到2000个节点.

2.监测系统的特点和需求

先前描述的DAQ在设备数量和不同角色方面的特性转化为在2015开始运行时使用的监控系统应该具有的特性列表.新的系统监控工具必须以轻巧的方式收集信息,以确保对系统性能的低影响.

从直接访问(即通过监视客户端、脚本等)和远程可访问设备(即,通过SNMP)收集信息.扩展到至少2000个节点.可扩展,可定制,并提供访问存储数据的可能性.它必须提供一个接口,其中专家和移位器可以监视DAQ状态.与其他DAQ软件包和诸如DAQ中央报告系统(OrthOS(4))之类的设备进行接口,用于报警和报告.监视系统应该能够检索的参数可以是给定设备在数据流中所扮演的角色的一般性或特殊性.对于Linux设备,一般度量可以包括CPU利用率、内存和分区统计以及网络Trac,而对于诸如LDC之类的特殊角色,我们感兴趣的是监视,例如,DDL的输入/输出速率、CPU和特定进程的内存利用率.例如,DDL速率应该通过专用脚本在机器上检索.对于远程设备,如PDU,大多数时候,我们仅限于SNMP接口提供的内容.

三.不同工具的比较

新的监测工具选择后评估和比较dieNoT工具.一个RST候选列表是通过专注于拥有免费软件许可和开源的工具而创建的.在入选名单中,我们考虑了工具:SNMP能力、警报/触发器、分布式监控、逻辑分组和大型用户社区.这导致了四个主要工具被纳入了初步分析:Icinga,仙人掌,泽纳斯和扎比克斯.另一种被称为Splunk的工具已经被考虑,因为在评估的时候,Cel-IT正在为自己的目的评估它.MARALISA监控工具已经被专门开发用于欧洲核子研究中心(和更广泛)的使用也被考虑在内.

3.1.ICIGNA

ICIGNA(5)是一种提供监控系统健康信息的系统监控工具.由于它主要集中在状态检查和注意,其任务重叠的主要作用Orthos.Icinga没有为性能数据监视提供本地接口.为了有一个灵活的性能数据显示,需要安装额外的工具.

3.2.Cacti

Cacti(6)是一种设计用于提供图形功能和性能数据检索的监视工具.它是一种轮询监视器系统,它以SNMP作为主要的数据检索方式.然而,在DAQ实验室中的一些测试中,一些图表显示缺失的数据,虽然没有错误可以在仙人掌日志中找到.原因可能是一些连接问题,例如,当机器没有响应来自服务器的SNMP请求时.

3.3.ZENOS

ZeNOS(8)是一种无代理的监控工具,提供用户界面,用户可以从该界面监视和压缩系统.在许多机器上安装和监视标准参数非常容易.然而,它的扩展比预期的要简单,并且调试被发现是DSOLT.

3.4.Zabbix

ZabBix(7)是一个非常灵活的监视工具,它允许轮询和捕获.它可以通过服务器代理应用来使用,其中代理将数据发送到服务器,或者通过一个或多个服务器来轮询被监视设备的结果.Zabbix的工作非常好,当使用在监控主机上运行的代理和分布式监控时,它是可伸缩的.

3.5.Splunk

Splunk(9)是一个可用于搜索、监控和分析机器生成数据的工具.它可以用于从主机和远程设备检索系统度量以及故障排除问题.它还提供了索引用户机器上允许用户使用的非常重要的搜索,聚合和关联信息.

3.6.MalalISA

MalalISA(10)是一个能够提供复杂监控的软件系统.它主要被设计用于监视网格节点和交换信息.处理其中的任务.因为它主要被认为是服务于高度分布的系统中,MunalISA独立使用(本地)将表示其有限的版本的功能

3.7.比较与决策

所有分析的工具提供警报、分布式监视、访问控制和Web界面,允许用户显示度量并阻塞监视工具.下表总结了上述工具的其他重要特征.

表1.监控工具比较

其中

数据收集是收集监控数据的方式.图形化指的是工具的本地图形功能.除非安装了外部工具,否则Icinga不提供图形功能.仙人掌,Zabbix,Splunk和MunalISA提供图形功能,允许用户定制图形聚集和修改它们.ZeNOS提供图形化,但它不允许进行灵活的定制和缩放.可扩展性指的是可以被监视的主机的最大数量.

灵活性/可扩展性已从0到2,表明在度量和图形方面扩展工具是多么容易.ZeNOS比所考虑的其他工具更不容易定制.

SNMP表示使用SNMP协议监视设备的能力.使用ZeNOS比其他工具更复杂,可以添加基于SNMP的度量.Splunk SNMP度量可以通过脚本查询设备来获得

文档/用户社区指的是从社区资源(即论坛、wiki等)获得信息或解决问题的容易程度,最大粒度代表最小检查间隔.对于Icinga,仙人掌和蒙娜丽莎,它可以被设置为至少1分钟,而对Zabbix和Splunk没有限制.所有这些工具都允许通过参数设置检查间隔.对于ZeNOS,它设置在轮询器级别,所有的度量使用相同的轮询间隔.自动发现允许自动发现设备,这对于大型部署非常有用.在仙人掌和Icinga中,自动发现可以通过插件来安装,而ZeNOS、ZabBix和MalalISA则在工具中集成.对于Splunk,一旦安装和运行Splunk代理,该设备就成为服务器所知道的.对于仙人掌来说,自动发现比其他工具更少.

无参数是指购买/使用该工具的成本.Splunk是一个许可的工具.

总数是给每个参数的标记之和.这只给出了一个指示,因为每一个参数都应该根据需要来讨论.当然,分数已经考虑到ALICEDAQ监控系统的特殊需求.

上述考虑使我们选择ZabBIX进行进一步测试,并作为ALICEDAQ的系统监控的候选.

4.Zabbix

Zabbix已经安装在ALICEDAQ实验室中,以便在功能和对系统性能的影响方面更详细地评估它.ALICEDAQ实验室,其中70个设备已被用于测试,代表了一个良好的环境来评估ZabBix在2015运行期间监测ALICEDAQ的适用性.

4.1.为了了解ZabBIX客户端进程对系统性能的影响,已经执行了对系统性能影响的广泛测试.图1(a)和图1(b)分别显示了主机的空闲内存和网络速率是如何变化的,以及是否在Zabbix上运行的收集频率.GueSes表明ZabBix在系统中的引入

图1.有无ZabBIX的系统资源使用(a)空闲(b)有zabbix

导致空闲内存和网络速率的减少.然而,在最坏的情况下,自由存储器减少0.035%,而速率在输出中增加800字节/s,并且在输入中增加300字节/秒.鉴于所预见的使用情况,这是非常可接受的.如果我们比较Zabix客户端的dient ent拥塞的系统性能,在这里我们改变所检索的值的数量,并且保持值检索间隔被固定,我们观察到类似的结果.结果如图2(a)和图2(b)所示.我们可以看到一个更现实的场景,ZabBix检索的值的数量是80.诸如LDC、GDC、DQM和DA之类的设备角色的预期协调将具有大约80个值,混合检索间隔从10秒到60秒.图2(a)和2(b)表明,在输入端达到的最大网络速率为1700字节/s,输出端约为2千字节/秒,而使用的CPU达到最大值0.27%.所有的结果表示可接受的系统性能.

4.2.ZabBix在ALICEDAQ的使用

ZabBIX客户端已经被压缩来检索dieNoT度量,根据该设备在ALICE数据流中扮演的角色.ZabBix仪表板提供了创建的功能

图2.没有Zabbix的系统资源使用和检索的不同数量的值

地图和表格,给出了一个良好的系统状态概述.ALICE Zabbix监控Web界面的主要入口点是图3所示的映射.

图3.ZabbxALICEDAQ地图

从地图上,可以识别有问题的角色(橙色环绕)和良好的角色.这使得用户能够容易地发现问题.此外,MAP表示用户可以访问关于所有设备角色(如角色图)的细节的要点,如图4所示.此外已经创建了关于警报的数据概述和信息;它们分别在图5(a)和5(b)中示出.

5.结论

由ALICEDAQ在LHC运行1中使用的系统性能监视工具将由201

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[23732],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图