数据中心采用了一定的战略以确保能够获得清洁、持续的电力资源。曾几何时, IT仅仅只是另一项重要的商业资源。但到了今天,IT已然成为了许多公司的业务。没有了IT,大多数企业组织及哦股将无法为他们的客户服务;与合作伙伴展开合作,开发新的产品或执行其他基本的业务功能。那么,提升数据中心电力系统可用性的方法有哪些?
一、提升数据中心电力系统可用性的方法有哪些
1、打破企业组织机构间的壁垒
在大多数公司,通常都是由两个独立的部门负责数据中心的管理:IT部门和基础设施部门。IT部门负责监控数据中心的计算机基础设施与应用程序,该部门通常是向所在企业的首席信息官报告。
而基础设施部门则负责处理数据中心的能源和冷却方面的要求,该部门通常是向所在企业的首席运营官或负责公司不动产方面的副总裁报告。
长期以来,这种企业组织结构的划分已经成为大型企业的规范常态,但其往往会导致负责维持工作负载的人员与负责提供电力资源的人员之间的沟通不畅。
从历史上看,企业IT和基础设施部门之间的协商不充分并为对数据中心的可用性构成太大的危险。直到最近,即使是在最大型的数据中心,其工作负载和功耗要求也是较为适中的,其IT管理人员们可以安全地重新安置服务器和工作负载,而不会对电力或冷却系统带来太大的压力。
然而,今天的大规模的服务器基础架构正在变得越来越大、更为耗电、同时也就会散发更多的热量。此外,刀片式服务器和虚拟化的广泛采用——在简化管理,并提高服务器利用率的同时,也大大增加了计算密度和由此产生的热量——也进一步的加速了上述这些趋势。
而在今天,在没有咨询基础设施工程师的前提下,服务器的蔓延,数据中心的散热冷却,工作负载或硬件的迁移都可能导致电力设施的超负荷或HVAC系统的不堪重负,这可能反过来进一步降低关键系统的运行效率。
然而,不幸的是,虽然最近几年以来数据中心行业本身已经获得了相当显著的发展,但数据中心内部的企业组织结构却并没有。其内部的IT和基础设施部门仍然是两个相关独立的部门,且相互之间在重要的业务事项方面往往缺乏充分有效的沟通。
解决方案:为了尽可能的减少与电力相关的停机时间的发生,企业组织应该就IT管理人员和基础设施管理人员在对数据中心的实现修改时应该如何以及何时进行相互协商的程序建立明确且标准的文档记录。
为了进一步推动IT和基础设施部门之间的有效沟通,企业组织也应该考虑改变自己的组织结构图,使得IT和基础设施两个部门都向相同的CXO级的高管报告。这可以通过在两个部门之间设置一套通用的业务期望目标和共同的报告结构,使得IT和设施管理人员之间的互动变得更容易。
2、着眼于长期价值,而不是短期成本
在许多公司中,当涉及到数据中心的建设或改造翻新时,短期的投入成本和企业长远的价值二者之间的优先级别总是冲突的。企业的高级管理人员们通常都要督促负责数据中心建设的人员务必要尽可能的压低成本,缩短完工时间。
其结果是,在数据中心的建设项目中所涉及到的供应链参与者、工程师、承包商和项目经理们往往都是基于谁的报价最低、并承诺最快的设备交付,而做出设备的选择决定。
但是,真正负责运营数据中心的工作人员们则有着一套不同的优先级,他们往往更为看重公司的长期利益。最低报价的硬件确实能够在数据中心的初期建设方面节省成本。
但如果这一价格水平的设备其实并不符合原数据中心建筑设计定义的操作规范的话,随着时间的推移,其最终将以降低运营效率和正常运行时间的形式来让企业组织付出昂贵的代价。
解决方案:当对一处数据中心的建设或改造翻新项目进行审查和决策时,企业的关键执行人员务必应该仔细审查采购决策,确保一线的项目管理人员和承包商并没有以牺牲企业的长期利益为代价,来换取短期的成本压缩。他们也应该清楚明确地传达严格遵守数据中心原始设计操作规范的重要性,即使这意味着在施工过程中的花费会更多一点。
企业组织机构也需要为其数据中心设施建设的管理人员们设定目标,而不要过于把重点放在短期成本的降低压缩方面。为其采取了一套符合企业长远利益的、进而减少了对于数据中心设备寿命的可用性带来不利影响的采购方法而奖励其数据中心建设团队。
3、采用标准化设施的工作流程
现如今的IT部门正在越来越多地利用标准化的最佳实践框架,如信息技术基础设施库(ITIL®,参见www.itil-officialsite.com)来帮助他们提高他们的工作流程系统化。
ITIL是由英国政府在上世纪80年代提出的,其定义了特定的、有效的、可重复的方法来处理事件管理、服务台操作和其他常见的IT任务。那些遵循ITIL指南的企业组织机构大都充分享受到了更好的IT资产控制,进而使得他们能够更容易地诊断和解决IT故障。
不幸的是,一些企业的基础设施部门采用了严格、统一的维护流程,如那些由ITIL定义的流程,而不是依靠特设的程序和基础设施管理人员们所积累的专业知识。因此导致了数据中心电源和冷却系统的维护标准往往较低;或与IT系统不太一致,进而导致了停机时间的增加。
解决方案:虽然基础设施流程框架作为ITIL尚有待开发,但基础设施部门可以而且应该采取相应的措施,以制定他们自己的标准化、文档化的流程。
按照一致的,可重复的方式进行必要的活动,可以显着降低功率和冷却故障的可能性,同时提高基础设施技术人员的工作效率。
4、维护一个基础设施变更管理数据库
航空工程师和专业的维护人员们早就了解到了强有力的变更管理流程的重要性。在一架既定的飞机上对于其所进行的所有维护程序都保持一份全面和准确的文档记录,对于确保飞机的安全飞行是至关重要的。
此外,一旦发生事故,维修记录可以为在第一时间找出造成潜在的灾难性的系统故障的根本原因提供重要的线索。基于类似的原因,ITIL特别侧重于强调在一个全面变更管理数据库(CMDB)对于IT资源所有变化的仔细跟踪。
在CMDB中的信息可以帮助 IT员工们更有效的解决服务中断,而且在紧急情况下,对于确保对于重要数据的及时访问是至关重要的时候特别有价值。
然而,不幸的是,仅仅只有很少一部分的企业基础设施部门维护了一套CMDB。其结果是,关于其数据中心的不间断电源系统(UPS)或关于当前哪些服务器或其它相关负载正在被处理等等诸如此类的唯一记录都只存在于管理人员的头脑里。
而一旦这位管理人员离职或退休,这些宝贵的纪录便随之离开了,这无疑会使得数据中心被暴露在不必要的停机风险之下,同时电源/冷却设备受干扰后也将需要更长的恢复时间。
解决方案:企业数据中心的基础设施部门应建立并严格维护他们自己的CMDB。ITIL的指导方针为这一举措提供了一个有用的起点,企业组织也可以利用各种专门的CMDB软件应用程序。
5、评估电力系统组件时,要考虑易于维修性与可靠性等
人们经常会混淆了“可用性”和“可靠性”这两大概念。然而,事实上,这两个术语有相关的,但彼此又有着不同的含义。
可靠性——其是通过平均系统故障间隔时间(mean time between system failures,MTBF)来测量的,而其本身也是可用性的两大关键组成部分之一。另一大关键组成部分则是当发生故障失败时的平均修复间隔时间(Mean Time To Repair,MTTR)。可用性的计算公式如下:
可用性= MTBF /(MTBF + MTTR)
一台服务器、交换机或供电设备可能是高度可靠的,因为其很少出现运行中断停机;但却并不一定是高度可用的,因为其有着很高的平均修复间隔时间。然而,当评估系统的可用性时,IT部门往往完全忽视了维修时间。
为了搞清楚对于数据中心的这方面的可用性的疏忽或将导致的使得数据中心陷入的具体危险。我们可以假设一种情况:一家公司试图决定在其新的公司总部使用普通荧光灯泡与更复杂的LED照明系统之间做出选择。
该LED系统是高度可靠的,因为它很少遇到机械问题。而一旦发生问题时,如果备用的LED灯泡没有存放在本地库存或无法从本地供应商处及时获得,那么,更换这些灯泡将会是一个相当耗时的过程。
而另一方面,如果采用普通荧光灯的话,其MTBF大约是6000小时,这使得其可靠性显著降低。但是,更换普通荧光灯的过程通常是一个相当快速且成本相对便宜的过程,因为普通荧光灯是一款标准化的产品。
故而当兼顾考虑到了可靠性和平均修复时间之后,该公司决定采用普通荧光灯泡实际上可能为其提供较之LED系统更好的可用性。
同样的逻辑也适用于电力系统的基础设施组件。设计用于长时间无间断平稳运行的系统,如果对其进行修复是一个耗时的操作过程的话,那么其可能不会提供高可用性。
解决方案:当评估电力系统的组件时,企业组织应该寻找那些既有高度可靠性,又能够快速修复的产品。特别是,企业组织应该仔细研究一款既定电力系统的制造商对于其产品提供服务的速度和有效性。
该电力系统的制造商雇用了多少服务工程师,他们在哪里办公,以及当您企业的数据中心站点发生中断事故后,他们将如何迅速地到达现场?他们的服务支持是24/7全天候的吗?服务工程师们对于制造商的产品了解熟悉程度如何?
如果他们不能解决某个问题,他们是否有权限访问升级的资源呢?如果其制造商不能调度安排经过了严格培训的服务支持人员及时进行故障修复的话,那么即使最完善和最可靠的电力系统,最终可能只会有糟糕的可用性。
企业也应寻找那些具有冗余的,模块化设计的产品。
如果一款模块化产品在这种系统中发生故障,那么其他模块将会自动补偿,增加了父单元的MTBF。
此外,更换的模块往往会比传统的组件更容易获得,而且其过程通常也是很容易的,只需要一两名技术人员能够快速安装,往往无需制造商的协助。其结果是降低了MTTR,从而带来了更好的可用性。
二、旧数据中心电力节省有哪些策略
通过虚拟化整合,节省15%的能源
通过虚拟化技术整合服务器可以降低物理服务器的数量并节省能耗,但可能并没有你想象的那么多,这是为什么呢?一个原因是可能这些配置更高的服务器要比替换掉的那些消耗更多的电力,那么在一个服务器整合项目中,我们应该期待能节省多少电力呢?托管服务器上Terremark的副总裁Ben Stewart通过公司数据中心的一些案例得出,平均上,通过服务器整合项目,可以节省约15%的电力。
高密度部署会造成额外的花费
高密度部署服务器可以在每平方英尺上获得更高的性能,但是从长远来看这可能并不值。在比较大规模的部署中,高密度的机柜通常不是最好的解决方案,如果你的数据中心需要整体考量冗余、电源分配、制冷和空间等因素,因为采用高密度机柜可能会消耗光数据中心的供电和制冷能力,而留下很多空闲的空间,这是没有必要的。
高密度部署环境中,扩展服务器的时候很可能需要额外购买昂贵的制冷系统,所以按照数据中心的设计规格正常部署服务器,不要超过电力和制冷的负载上限,可以节省数据中心费用。
谈到制冷费用,可以有免费的午餐
一种新的数据中心的设计方法是选址于气温比较低的地方,比如太平洋西北部或加拿大,可以显著的降低甚至消除制冷费用。这些地方可以利用外部自然的冷空气降低数据中心温度,是很经济的一种方法。
这种“免费冷却”的技术可以应用“空气和空气”或者“空气和水”的热交换系统,让外部的冷空气进入到数据中心。
这种“免费制冷”方式的优点并不仅仅是绿色环保,对于数据中心运营成本的节省也是引人瞩目的。如美国富国银行三年前在明尼阿波利斯建立了采用“免费制冷”的数据中心,每年可以减少450,000美元的制冷成本。
你需要专业人员的帮助
如果你运营的是一个旧的数据中心,并且不知道从哪开始,雇佣专业的工程师可以帮你解决不少的问题。对于一个旧的数据中心,对计算数据进行动态的分析,采用最优化的方式调整网络架构以及电源、制冷设备等。一个好的专业人员可以帮助你节省三分之一到一般的能源消耗,相对工程师的薪水来说,这也是非常合算的。
以上就是我们为大家带来的提升数据中心电力系统可用性的方法有哪些的全部内容了。其实通过应用虚拟化,将数据中心服务器数量减少一半,并降低一半的运营成本,在一个旧的数据中心,这并不是不可能的。此外,还有不少方式可以帮助旧数据中心降低能耗和制冷等方面的成本。