如今,数据中心关键设施的运营和维护(O&M)被人们认为与复杂场地的工程和设计阶段同等重要。
随着关键基础设施的稳健性和相关复杂性不断提高,提高容错能力和并行维护能力,建立强大的运维管理实践来管理数据中心设施的重要性日益显现。研究表明,60%或更多关键任务受到影响的“破坏事件”与工作人员的行为有关。这项活动包括关键系统的日常切换和重新配置、维护任务,当然还有人为错误。
支持数据中心持续运营所需的员工和流程必须在其开通运营的第一天就位,并且必须持续到关键业务运营的最后一天。这就要求在设施开始运营之前就开始努力建立这些流程,最好在现场规划和需求定义阶段开始。
数据中心的设计考虑
提高数据中心关键设施的高可用性通常需要部署复杂的冗余方案,例如2N、2(N+1)或甚至2(N+1)/ 3配置。即使关键设备或系统出现故障,也需要足够的冗余来支持不间断的操作。
但如果受影响的基础设施没有足够的措施来隔离失效的设备,并且随后在持续运行期间无法访问、修理或更换设备,则仍会发生中断。这意味着在操作开始之前,在数据中心设施的整个使用寿命期间维持关键操作的要求必须包含在设计和建造中。这就是所谓的可维护性设计。
施工、启动和调试
数据中心设施进行了最好的规划设计并不等同于建造过程中最好的设计。需要对施工过程进行严格的监督和质量控制,需要在施工过程中频繁进行现场进度检查。此外,必须由合格的技术人员进行全面的启动和测试,以便在设备可以通过认证准备开始关键操作之前进行正式验收测试。这一过程称为调试,它还包括确保项目具有适当的人员配备,并为工作人员提供现场特定培训,并提供准确的现场文件。
正式调试在设计阶段开始(如果不是更早的话),以提供可施工性、可维护性和确保设计意图(基于设计文档的基础)符合业主对设备性能的要求和期望的审查。调试还包括不同级别的测试和验证,其中包括工厂验收测试、运输和接收要求、现场进度检查、功能性和功能性性能测试,以及最后的集成系统测试。
现场运行维护人员应在整个施工、启动和验收测试过程中参与调试过程。这为运营维护人员提供了宝贵的,有时是独一无二的机会,使他们能够参与到可以学习将来在关键运营中负责工作的活动中。没有比现在更好的机会进行实践培训,并深入了解特定地点的细微差别。
运营和维护人员和组织
分配到运营和维护关键设施的工作人员应该与过程的其他任何方面一样有远见、考量和关注。运营和维护人员应在网站上线之前进行识别、组织和培训。一些重要的考虑因素是运营和维护网站需要哪些技能?这个部门应该向谁汇报?工作人员将负责哪些工作以及将外包什么工作,包括服务级别协议?
首要问题之一应该是:“运营和维护组织将如何区分为关键基础设施提供运维服务的员工,还是组织涵盖的所有关键和非关键的运维活动?”在理想情况下,专门的工作人员被指派成为负责关键基础设施和非关键基础设施的独立工作人员。持续运营需要时刻保持警惕,并将重点放在关键的7/24的持续运营系统上。尽管一些发生事件可能很紧急,尤其是当其位于非常明显的位置时,可能会使工作人员分心,但其应该完全专注于关键操作。同样,关键的运营和维护预算不应该争夺稀缺的资源,其中可能包括办公用具、美化环境和其他必要的支出。
运营和维护流程
关键设施的运营和维护不仅仅是一套程序。这是一项战略,应该包括明确的目标和宗旨,明确的角色和责任,专注于持续运营的组织,以及足够的资源来实现目标。
数据中心最脆弱的时候是什么?在夜晚和周末,承包商、供应商和零件是否难以抵达?或者在工作日期间,停电可能产生的最大影响是什么?显然,其答案与数据中心的使命有关。如果数据中心确实支持在正常工作时间内更有价值的业务活动,就可能会得到一个答案。另一方面,如果该数据中心具有一个真正的全天候运营的任务,其中星期一上午9点并不比星期六下午9点重要。
这些问题的答案可能会产生更多问题。例如,运营商将在哪里储存关键备件?他们是否需要环境调节或日常维护?数据中心是否需要行业专家来管理复杂的监控和控制系统,或者操作系统需要什么?
哪些备件将被视为关键并需要在现场维护?需要什么工具、设备和库存?是否会使用计算机维护管理系统,如果是,谁来构建和配置?
一般数据中心设施的维护方案也有很大差异,其关键设施趋向于高端。大多数的数据中心设施都具有一定程度的计划维护。基于时间间隔或频率的常规任务被称为预防性维护。例如,在特定的设备上,可能每月进行一次检查,每半年检查一次传送带并进行调整,每六个月更换一次过滤器,并每年对内部清洁、校准检查和传感器进行校准。这里的缺点是无论实际操作条件如何,任务都会发生。这些程序可以根据实际的设备运行时间进行改进,但仍不考虑实际运行条件。
一项改进是实施基于条件的监测技术,以便根据实际运行条件进行维护。一个简单的例子就是使用差压传感器来监控过滤条件。当过滤器加载时,Δ-P增加,并需要在适当时更换过滤器。
当使用这些状态监测技术并且数据趋于趋势时,运营商可以提前预测何时需要进行维护。这被称为预测性维护。可以为警报和警报条件分配阈值,并且通过分析趋势,可以预测何时会超出阈值甚至预测故障。
运行状态监测技术的一些技术包括振动分析、摩擦学(润滑分析)和红外热扫描。这些技术可以在设备处于联机状态时揭示对设备运行状况的见解,而不需要停机或中断维护。
结论
数据中心设施运营和维护的所有方面都必须在现场要求的制定中尽早考虑。否则,可能会丢失机会,以将必要的运行维护要求嵌入到数据中心设施的设计和建造中。显而易见的是,由于当今设计、建造和使用在线关键设施所需的巨大资金投入,并且考虑到与这些数据中心设施相关的任务的重要性,因此,工作人员、计划和资源等将被委托在其预定的使用寿命内运营和维护数据中心。