直到最近,许多机构都没有考虑他们的数据中心基础设施已经不止一个十年了。只要有足够的空间来容纳新的服务器机架,现有的冷却和电力能力和容量暂时还可以满足新增加的需求。但是,随着计算能力需求的不断增加,现在这种状况不会维持很久,因为在不久的将来,就会出现电力供应得紧张。
据市场调研公司IDC(CIO.com出版商的一个姊妹公司)的调查结果,在数据中心经理所关心的事情中,容纳和运行服务器所需要的计算机支持基础设施是仅次于价格的第二大问题。IDC公司的高性能计算研究部副总裁SteveConway说,“在三、四年前,这些问题是排在第12位的,这意味着,在那时它们根本就是不被重视的问题。”
这一状况的改变,优先反映了技术的变化和处理能力需求的急剧增长。虚拟化和多核处理器使我们能够在一个很小的地方摆放更高密度的计算能力。所有类型企业与日俱增的核心业务处理,对电脑计算依赖的程度的提高,推动企业把越来越多的计算机机架放到它们现有的数据中心。与此同时,Gartner预测表示,到2008年底,世界上一半的数据中心的基础设施将不能满足近年来的高密度的设备对电力和冷却的要求。
这些变化带给像我自己这样的(在一个高端科技超级计算机中心的管理者)主流数据中心的管理者,在今后的十年里要面对的一些问题:如何正确选定基础设施支持设备,如何优化冷却为高密度服务器机架服务,如何平衡数据中心的效率与业务需求,以及如何跟踪所有的可能影响执行成败的细节。
我工作的数据中心(设在美国陆军工程师研究与发展中心(ERDC)的国防部超级计算机中心),正处于一个为期两年的、对数据中心的基础设施,进行完全彻底地检查过程中。设计一个新的数据中心或改造一个旧的,是一个复杂的过程,但以下的六个想法,可以让您在开始这项工作的初期,就保持一个正确的方向。这六个想法是根据在过去的十年里我们的经验总结出来的,并且是在陆军工程师研究与发展中心正在进行的基础设施现代化的过程中受到实地检验的。
1、决定您是否真的需要自己的数据中心
越来越多的计算机基础设施是一项具有挑战性的,投资昂贵的过程。在您决定下次升级前,一定要问问自己,“我是真的需要自己的数据中心吗?”
一个最小的基础设施将包括电源开关设备和发电机。但是,几乎没有一个数据中心的基础设施仅仅就是这么多。还要增加容错功能,包括电池或飞轮的不间断电源(UPS)、后备供水(以防万一您的市政供水中断)、冗余组件、甚至可能是多个独立的商业供电的接入。然后,你必须保护自己免受火灾和自然灾害。一旦数据中心的建成,你需要雇人来监测和维护它。
正如Amazon公司首席技术官(CTO)WernerVogels在最近的“下一代数据中心会议”中表示:除非你是在一个具有高效率的行业,运行数据中心的本身就能直接得到回报,否则,在别人的数据中心运行您的应用程序可能会更好。
这个解决方案不见得对每个人都是正确的,但是,当公用事业费用上升和紧缩基础设施的需求不断增长时,它至少是值得考虑的。
2、权衡绿色设计的成本和效益
成本和消费的上升,使得对电力的关注推到数据中心规划的前面。如变压器,电线,冷却系统和UPS,都存在着很大的的、固定的电力损耗,在电力到达第一台服务器之前将有效功率切割掉一部分。
GreenGrid(绿色网格),一个旨在提高数据中心能源效率的信息技术公司的协会,推荐通过去除冗余的组件来合理精简基础设施,仅仅安装您需要的、使数据中心目前能够满足运行的设备。跟据该组织的《节能数据中心指南》,合理精简基础设施可以节省多达百分之五十的电费。
但是,还有一个日渐衰老的能源故事,在数据中心的升级规划刚刚崭露头角时,美国的公用事业基础设施已经开始显示出衰老的迹象,因为,电力供应似乎总是有问题。
在Minneapolis的大桥坍塌和近十年内最初几年的大规模停电,这些都是国家的重要基础设施迅速下降的征兆。2003年8月14日,停电造成GreatLakes附近,大约5000万人没有电力供应,像这样的事件预计在未来几年内,将变得更加普遍,除非采取重大措施来抑制需求,并增加老化电网的可靠性的能力。
根据最近的一份北美电力可靠性委员会(NorthAmericanElectricReliabilityCouncil)的关于长期电力可靠性的报告指出,在未来10年,对电力的需求预计将增长19%,但是,发电能力预计将仅能增长6%。这意味着供电的余量正在下降,每年激增的需求或区域性气候事件,很可能比以往任何时候都更容易造成全国各地的停电事故。
随着在短期内,市政电力中断的可能变得更加频繁,数据中心管理人员应当积极地设计自己的基础设施以保证电力的可靠性,包括冗余电源分布和发电系统,以防止在商业电力中断时,系统出现故障。
显然,你需要将你的基础设施设计成尽可能地高效率(甚至可以把基础设施的高效率当成设计要求)。但是,电力分配基础设施节能的程度将取决于机构对持续可用性和增加能力的成本评估。例如,在ERDC,我们的超级计算任务需要非常强大的电脑可用性。我们的电力分配基础设施包括:有冗余的开关、电池和发电机。这些使我们能够在进行日常维护时,不用中断运行。在组件发生故障时,也可以继续长时间地紧急运行。这些冗余的设备虽然增加了我们固定的电力损耗,但是也考虑到我们的业务不能中断的需求。
3、通过设计达到“紧密结合冷却”并提高灵活性
电脑在两件事上是非常有效的:处理数字和将电力转为热量。进入数据中心的电量,大约有百分之三十在服务器内转变成热量。
传统的做法是,用设施以外的大型冷却机组冷却水,然后将冷却水注入到在机房地板上的电脑室空调(CRAC)装置。这种做法实质上是使整个房间充满冷空气,但针对具体的热源点,只提供了非常小的灵活性。
“紧密结合冷却”的概念已经流行于超级计算中心多年了,我们发现它是有效率的和有效力的。这个想法是把冷却放在非常接近热源的地方,目的是删除热源。这种做法可以有针对性地冷却和控制热源点,并能缩短空气路径,比将冷空气移动到全房间需要更少的风扇电力。“紧密结合冷却”可以使机架密度达到通常情况的4倍。根据客户提高机架密度的需求,所有主要服务器厂商现在都能提供适合“紧密结合冷却”的配置。
有许多基于“紧密结合冷却”解决方案的机架和芯片。例如,有将冷却装置安装在一个机架内,横靠在服务器机架侧面的设计,或将其放置在每个机架的顶部的“自上而下”的冷却办法。也有的解决方案直接将冷却水提供到机架的后门,或将冷却器放置在机架的抽屉内,与电脑抽屉交错安排。
以芯片为基础的冷却解决方案有两个基本的形式。最简单的是将冷却水输送到一个或多个位于服务器的热源上方的冷却器中。更为复杂的系统使用惰性液体,直接将其应用于服务器芯片的闭环系统。虽然这项技术最近才被通常的服务器采用,但超级计算机行业一直在使用这项技术,已经几十年了。2006年,ERDC的超级计算中心在它的一些Cray超级计算机上使用了芯片级的汽化热交换冷却系统。
所有这些方法都要求冷却水的管道刚好到达计算机机架,你需要在设计你的数据中心的管道时,考虑好这一点。如果将冷却水移动到数据中心的核心区域的这种想法使你的心跳停止、非常害怕的话,这里有大量的、如何最大限度地减少风险的工程方面的知识可以让你放心。你需要采取措施包括:使水管在抬高的地板下面尽可能的低位置,安装检漏仪,将电与水管管道隔离,并提供泄漏控制功能装置,如重力排水管道及接漏水盘。
4、地板砖方面的考虑也不容忽视
如果您没有规划或不能计划“紧密结合冷却”,这里仍然有一些你可以采取的措施,来提高冷却效率。
尽量减少在机房抬高地板下的电缆和管道数量。这是空调装置(CRAC)正在使用的空间,空调装置把冷空气推向您的计算机,并且,如果你能最大限度地减少冷空气在流动过程中与电缆和管道相遇的中断,那么,用于冷却的能源效力将可以大大增加。尽量减少地板下的障碍物,也可以帮助消除数据中心的热源点。
另一个措施是:你可以是委托流体动力学研究机构对数据中心进行研究,或购买您需要的软件,自己执行该项研究。这种方法使用了一个计算机模型来模拟围绕数据中心的气流,可以帮助您找出冷却问题的原因和解决办法,包括穿孔地板砖的最佳铺设位置。
几年前,ERDC超级计算中心采用了这种方法,以确认我们获得了冷却系统的最大能力。在数据中心,穿孔地板砖往往只是铺设在服务器机架冷通道的前面。数据中心的综合领导PaulaLindsey说:“令人惊讶的是,最有效的穿孔地板砖的铺设并非总是在机器的前面。”在流体动力学的研究表明,我们需要在一些地板砖上,增加穿孔直径,在关键位置上,让更多地线缆和管道通过。
5、将支持设备移到外面
正确选择您的计算机基础设施支持系统的位置将提高数据中心能源效率,并让您在将来更容易扩展规模。其中,您可以采取的最重要措施之一是:尽可能地将电源和冷却设备移到数据中心以外的地方。事实上,如果你有空间,一个好的办法是,将这些设备的大部分移到建筑物以外的地方。
下面是一个例子。对于在ERDC的一个新的超级计算中心,我们需要一个短期安装以取得2兆瓦的额外电源。我们发现,需要添加的UPS和发电机设备,不适合安装在放置其余电力基础设施的这个建筑物内。在10年前,我们的数据中心选址在一个陡峭的山坡和道路之间的区域。其解决方案(将设备放置在室外由切割山坡形成的平地区域)是非常昂贵的,并在日程已经很紧迫的情况下,这将增加时间延误。
我们新的长期设计是,将这些组件的大部分放置在建筑物以外的一个模块化新规划出的公用设施区域。负责执行升级的工程师GregRottman说:“当我们需要扩大规模时,这种将设备的移动,消除了建筑物围墙对我们的限制,并在至少另一个10年内,应该能够提供给我们灵活性,满足我们扩容升级的需要。”
将传输和外部设备移到室外也有利于环保。在今年早些时候发表的一份报告中,GreenGrid(绿色网格)发现,进入数据中心的电力在电力输送的单元、UPS设备和开关设备中,高达百分之二十五转换成为热量。将这些设备的移到数据中心以外,如果可能的话,移到建筑物的外面,这会降低您的整体能源消耗,因为不再需要能量来消除移走由这些设备所产生的热量。
6、电源管理的监控
你知道您的数据中心使用了多少电力吗?您的服务器用电量比供应商所说的用电量是多了,还是少了?明年设备升级的耗电量与您的设施电容量是不是很接近?
一个用于电源和冷却系统基础设施监测的系统,必须是你对数据中心任何升级规划的一部分。对能源使用积极的管理和监控将帮助您计划未来和评估您为提高数据中心的能源效率所采取措施的有效性。
对于要说服不直接管理数据中心业务的高级管理人员,让其投资数据中心的升级,可以说是一种挑战。您可以一点一滴地,在可以负担得起的情况下,逐步建立数据中心的电源监控系统。并观察节约能源和提高效率的措施是否有效和有意义。这将有助于您建立一个长远电源改进评价体系,并更有效地规划未来。