动力环境监控系统是以计算机网络技术为基础,结合了通信、自动控制、新型传感等多项技术的新型监控网络,其作用是为了监控机房内的环境和各动力设备。气象数据中心机房的功能不仅是获取气象通信数据信息,同时也是维持整体通信稳定的重要站点,而动力环境监控系统是保证气象数据中心机房动力环境稳定的关键。主要阐述了动力环境监控的意义、系统组成部分、具体在中心机房中的应用及测试等方面展开论述,分析气象数据中心机房应用动力环境监控系统的必要性,进一步分析了该系统的实际应用。
随着信息化﹑数字化技术的持续发展,数据中心机房成为维持各单位日常业务正常运行不可或缺的一部分。气象数据中心机房的动力环境直接影响到机房内各项工作的开展,因此只有保证气象数据中心机房能为各运行设备提供一个安全、稳定的运行环境,才能确保日常工作有条不紊地进行[1]。动力环境中存在着各种各样的安全隐患问题,在一定程度下会干扰到气象通信数据的上传、处理和存储,因此需要做好实时监控。在传统的气象数据中心机房监控工作中,调度人员与各机房管理人员主要通过电话方式来沟通,这种沟通方式缺乏灵活性,也无法让管理人员详细掌握信息,再加上一些管理人员存在工作态度懒散、管理意识薄弱的情况,导致气象数据中心机房的动力环境管理不当,影响到数据的通信工作。同时,一些通信机房设置的地区也比较偏远,不利于机房管理人员看守并及时排除设备故障。所以,为了解决在以往监控工作中出现的问题,让机房管理人员能够第一时间获知机房内的动力和环境设备处于异常的状况,智能化的动力环境监控系统应运而生[2]。
动力环境监控系统是一套能够集中、高效地管理监控机房的技术手段。建设动力环境监控系统,在一方面不仅能够保证机房管理人员及时获取到机房状态信息,尽快消除其动力环境中的不利因素,避免了各运行设备出现故障,为机房动力设备运行的稳定性及机房环境的安全性提供有力保障。另一方面动力环境监控系统具备监控灵活、全面的优点,能够远程监控并调整机房状态,充分节省了人力资源,实现了机房的智能化值守。动力环境监控系统结合了多项先进技术,在实时监测动力环境的同时还能收集历史数据和预警数据并集中分析,根据分析结果来把控环境的稳定性,对整个计算机系统的正常运作起着至关重要的作用[3]。
动力环境监控系统主要实现对机房内各种动力和环境设备进行监控、对机房突发状况及时告警和对设备数据的查询、生成报表等功能。通过将所有功能集中到一个统一的监控管理平台,使机房相关管理人员能够更加高效地管理和维护气象数据中心机房,不仅提高了管理人员对系统设备的管理水平以及应对突发安全事件的快速反应能力,而且也减轻了他们的工作强度,节省大量的人力成本[4]。如图1所示,动力环境监控系统主要由设备监控、数据处理、报警管理、统计报表和系统设置等5个模块组成。
设备监控模块的主要作用是采集被监控设备的运行状态与运行参数信息,并将信息传输到机房监控主机进行数据处理,*后经由机房监控主机将数据通过网络传送到监控管理服务器。监控的对象包含了机房的温湿度、消防状态、漏水感应、配电、UPS和空调[5-6]。
机房的温湿度监控主要通过在机房服务器机柜等位置上安装温湿度传感器,以此来掌握温湿度的变化情况[7]。监控管理服务器接收来自温湿度传感器回传的数值,并判断此时机房的温湿度是否在设定范围。若温湿度值超出了设定值,监控管理平台会做出相应的提醒,并远程自动开启机房内的普通空调调整室内温湿度。
机房的消防状态采用的是接收烟雾传感器的输出信号来实时监控。当内部烟雾过多时,监控管理平台会自动发出警报,以防止火灾事故的出现。
主要针对机房范围内比如窗户以及空调附近等容易漏水的位置开展监测。若感应到有漏水情况的发生也会作出实时警报。针对于漏水监测功能的动态系统还分为了定位与不定位两种类型,定位类型即是指通过监测可判断漏水情况出现的具体位置,不定位类型则是只能提醒机房有出现漏水,无法获取位置,在该项监测中,系统的与传感端共同作用,一旦发生漏水就会立即将信号传输到监控管理服务器。
机房的配电监控主要包括两方面:市电监测和精密配电监测。机房配电柜市电进线总线的供电质量直接关系到机房内设备的安全,因此市电监测不仅实时监测供配电系统的供电状态是否良好,同时也会监测市电质量,具体可监测到的参数包括电压值、电流值、有功功率、无功功率、有功电能、无功电能以及频率等,切实保证这些电力参数处于合理范围,若参数异常监控管理平台也会做出相应的告警。
精密配电设施包括智能电表、配电柜、电源分配单元 (PowerDistributionUnit,PDU)以及列头柜等等,在采用动力环境监控系统监测时,可以对这些精密配电设施进行重要数据采集,包括其主路的各配电信息以及支路的电流值与电压值,保证各项电路运行的稳定性,若出现异常会发出告警。
不间断电源(UninterruptiblePowerSystem,UPS)是机房内电力设备系统能够正常工作的根基。对UPS进行实时监测,一是对UPS的逆变器、整流器、旁路、电池总电压以及负载等进行参数监测,从而监视其运行情况;二是根据预先设定的参数值的范围来开展检测工作,若是出现参数值越限则判断为UPS发生故障,监控管理平台会发出告警,相应的告警情况也会被自动记录;三是对监测情况的记录会自动生成曲线,可以更加直观地看出运行各参数变化情况,通过与历史曲线进行对比来获得更多信息,进一步方便管理UPS[8-9]。
数据中心机房中部署的空调有精密空调和普通空调两种。普通空调主要用于调节机房温湿度。根据区域内的温湿度情况对普通空调开展远程开关调控,该项监测功能的实现主要基于JZ-IEM系列监控主机设施以及相应的空调控制接口,同时,控制的实现还需使用外接红外。
精密空调是有别于普通空调的精密设备,在监控方面主要是实时监测回风温度和回风湿度等空调参数,以及压缩机、制冷器、加热器和加湿器等的工作状态。此外,还会对组件的过热、风扇过载以及滤网堵塞等情况开展监控,保持精密空调的稳定运行。
数据处理模块由监控主机完成。监控主机作为被监控设备和监控管理服务器之间的中继站,承担着两项工作任务:一是按照系统的业务需求将收集到的设备数据信息进行汇聚、加工、运算、存储等处理,比如通过采集某区域多个温湿度传感器的数值,计算出这个区域温湿度的平均值和*大值。根据数据处理需求,制定合理的数据计算规则、复杂事件处理规则;二是将数据信息继续传输给监控管理服务器。
监控管理服务器在整个动力环境监控系统中有着*高指挥的作用。在监控管理服务器上安装基于集中监控管理平台软件,并将各种被监控设备的IP地址配置到这个集中监控管理平台中,可以用来查询数据中心机房内全部设备的工作状态和运行参数。系统根据被采集的监控设备参数来判断设备是否处于故障。若监控设备的参数超出系统设定的阈值,集中监控管理平台会发出告警,并自动拨打事先在系统设置的电话号码及时提醒机房管理人员存在异常情况。系统设有一般告警、重要告警和紧急告警3个告警级别,当有多件告警时间发生时,系统会按照告警等级的严重程度依次排队进行处理。此外,当系统有告警发生时会生成告警记录,内容包括告警出现的时间以及结束时间、告警内容、告警级别等,并能保存*近1年内的告警记录信息用于查询和数据分析。
统计报表模块分为两部分:统计功能主要用于查询告警记录、设备监控数据等内容。报表管理功能是根据用户需求将统计功能中查询到的数据进行处理,用表格或者曲线的形式生成如告警统计报表、操作统计报表、历史统计报表等多种报表用于机房故障信息的分析,加强机房运行可靠性和稳定性。
系统设置功能模块由常用设置、个性化配置和更新日志组成。常用设置包括设备的管理、用户权限管理和系统的配置。个性化配置包括监控管理平台界面设置、平台告警提示时间间隔、告警语言提示间隔等。更新日志记录用户对监控管理系统的所有操作。
福州市气象局根据数据中心机房的现状,在机房部署实施了动力环境监控系统。从目前该系统的使用情况来看,达到了能够实时监控气象数据中心机房运行状态的效果,满足了业务需求。
用户通过本地浏览器访问,就会进入到登录界面,这时只要配置下端口就可以正常进入动力环境监控管理平台的主界面了,设备监控界面见图3。点击左边树状图节点可以进入对应楼层机房的监控界面进行查看,右上角的查看列表可以在每个区域的监测点和组态图之间切换。当设备处于正常状态时,节点颜色为蓝色,当设备处于异常状态时,节点颜色根据告警的严重程度发生不同变化。监控界面的右下角也会弹出告警信息提醒。
点击告警信息提醒进入“消息中心”界面,该界面会详细记录告警设备编号、告警设备名称、设备所属类型、告警等级、首次告警发生时间和告警次数等信息,方便机房管理人员及时定位故障位置解决问题,见图4。
福州市气象局数据中心机房动力环境监控系统,自其运行以来,各项功能均能正常使用。软件指标可靠,具有直观形象易用的图形用户界面,方便相关人员操作。目前已有的统计记录表明:该动力环境监控系统系统能提供及时、准确的监测和告警信息。系统能根据先前制定的各种规则,将监测到的告警信息及时发送给相关的业务值班人员,发送的告警信息与实际情况相符,尚未出现信息的错报、漏报。生成的告警记录详细具体,涵盖了告警出现的时间、告警原因及对告警处理过程等内容,为后续分析、处理机房异常状况的汇总工作提供了可靠的数据。该气象数据中心机房的动力环境监控系统具备准确的告警功能、详细的分析处理功能,的提示功能,使气象保障业务值班人员无需通过以往例行的巡查监视的方式,就能够得到准确的机房环境、动力设备运行状态信息,当机房系统设备运行存在异常时,也能及时收到报警信息并尽早处理。气象数据中心机房的运行维护水平更加高效智能,逐步走向真正意义上的“无人值班”[10]。
通过数据中心动环监控系统,实现了对数据中心的门禁状态、水浸状态,烟雾状态,视频状态,环境状态,高低压配电状态,设备运行状态进行实时监测,并进行实时报警,保障数据中心正常运行,避免运行环境的失控导致配电设备运行故障,保证维护人员安全,延长设备使用寿命,减少配电室粗放式管理导致成本过高。同时实现动环监控并对各用能耗能进行能效分析,帮助用户实现用能效率的优化。
展示当前数据中心总能耗,IT能耗,空调能耗,及其他能耗并且计算出当前数据中心实时PUE值,通过仪表盘形式直观展示。
选择查看数据中心的中低压配电系统主接线图,并在一次图显示配电系统当前遥测、遥信数据和状态。实时监测各配电柜的电压、电流等电力参数,变电站的温湿度、烟感、水浸、门禁等环境情况。
电气接点温度实时监测,断路器触头、触臂、母排和线缆连接等位置安装无线测温传感器监测接点温度,便于提前发现温度异常导致的事故。
监测各变压器各项参。