一个完整的数据中心机房除了有主要的网络设备与机柜之外,想要正常的运转还离不开工作人员每日的维护,那么,数据中心机房的日常维护都包括哪些东西呢?数据中心的日常工作主要包含值班、巡检、设备维护保养,故障处理、演练等。
值班,每个数据中心都有一套动环系统,这套监控系统监控着数据中心里所有的设备,采集成千上万个点,比如电压、电流、频率、PUU、功率、温湿度等各种信息都可以从这个系统中读出,而且每个参数都设定有一定的范围,超过这个范围值系统就会告警,屏幕相应位置会闪烁,且有语音提示,这是值班的人就需要对相应的问题进行现场处理,因为对每个故障都有处理的时限,因此值班人员需要对位置进行快速定位,所以要求值班人员对机房的所有设备的位置非常熟悉才行。
日常的巡检,就是对不同的设备有不同的巡检频率要求,巡检就是拿着巡检记录本去机房进行巡查,有点类似于大王派我来巡山的感觉,对有问题的点进行处理,然后记录在案。
设备维护保养,每个机房都列有详细的设备维护保养计划,具体到每天做什么,对哪些设备具体做什么具体的维护保养,这个维护周期都是以月为单位的,不断的周期循环。
演练,演练的目的是为了提高大家对应急情况的处理能力,我们的演练包含了各种故障情况,比如断电、断水、设备故障、防恐、防洪、防台风等,演练主要是模拟真实应急状况发生,我们依据现有的应急预案能够完美的应对当时的情况,为了完成这个演练我们需要准备很多资料,比如演练计划、演练方案、应急预案、演练报告等,每次演练前都会进行各种部署,事后进行总结反思。
故障处理,机房设备很多,难免会出现一些故障,这时就需要有经验的工程师去现场解决问题,我们一般分为一线工程师,二线专家,在一线工程师无法解决问题的时候,向二线专家寻求帮助,如果二线专家也搞不定,就只能向设备厂家寻求帮助了。
以上这些都是机房运行一些最基本的工作,是保证机房运行的最基本的要求,除了这些还有很多事务性的工作,比如和客户沟通、节能减排、其他一些专项工作等,总体上来说,运维的工作并不是技术性很强的工作,但涉及的面较多,而且容不得有一点失误,不光是为了业务中不中断,里面的高压电也非常危险,所以需要非常规范的流程来减少大家的失误,提高我们的工作效率和满足较高的要求。