灾备技术是指在一个数据中心发生故障或灾难的情况下,其他数据中心可以正常运行并对关键业务或全部业务实现接管,达到互为备份的效果,好的灾备技术可以实现用户的“故障无感知”。灾备是一项综合系统工程,涉及到备份、复制、镜像等多种不同技术,系统建设复杂程度高。因此,一般只有在大型企业和金融行业应用较多。
其实,我国在2007年时颁布了首个关于灾备的国家标准《信息系统灾难恢复规范》(GB/T 20988-2007),是我们在灾备建设时重要的参考性文件。现在的数据中心承载的业务越来越重要,引入有效的灾备技术,能减少数据中心发生故障时带来的损失。数据中心灾备技术大体可以分为四种:冷备、暖备、热备和双活。
一、冷备
冷备技术是中小型数据中心或者承载业务不重要的局点经常使用的灾备技术。冷备技术的用站点通常是空站点,一般用于紧急情况;或者仅仅是布线、通电后的设备。在整个数据中心故障时无法提供服务时,数据中心会临时找到空闲设备或者租用外界企业的数据中心临时恢复,当自己数据中心恢复时,再将业务切回。这种方式数据中心业务恢复的时间难以保证,有时临时搭建的平台也可能因为不稳定而再次出现中断。当然这种方式不必准备大量的空闲设备,维护成本可以忽略不计。冷备技术从启用到真正可以开始工作需要较高的成本和时间,通常需要几天甚至一周或者更长的时间。冷备技术算不上是一种真正意义上的灾备技术,因为冷备基本上就是数据中心从未考虑数据中心出现故障的情况,一旦出现故障,则是“姑娘上轿才扎耳朵眼”的做法,对于故障毫无预知和提前投入。当然冷备技术的缺点是显而易见的,其已经越来越无法适应数据中心高要求的发展,逐渐成为一种淘汰的技术方式。
二、暖备
暖备技术是在主备数据中心的基础上实现的,前提是拥有两个一主一备的数据中心。备用数据中心为暖备部署,应用业务由主用数据中心响应,当主用数据中心出现故障造成该业务不可用时,需要在规定的RTO(Recover Time Objective,即灾难发生后,信息系统从停顿到恢复正常的时间要求)时间以内,实现数据中心的整体切换。在具体实现上,主备数据中心的两套业务系统网络配置完全一样,备用数据中心路由平时不对外发布。当实现主备数据中心切换时,需要断开主用数据中心路由链路,并连接备用数据中心路由链路,保证同一时间只有一个数据中心在线。暖备技术还是手工方式,从知道主用数据中心故障到备用数据中心工作需要有人24小时值守才能完成,工作效果较低。
三、热备
相比暖备,热备最重要的特点是实现了整体自动切换,其它和暖备实现基本一致,实现热备的数据中心仅比暖备的数据中心要多部署一项软件,软件可以自动感知数据中心故障并且保证应用业务实现自动切换。业务由主用数据中心响应,当出现数据中心故障造成该业务不可用时,需要在规定的RTO时间内,自动将该业务切换至备用数据中心。在具体实现上,在主备数据中心均部署GTM(广域流量管理器),GTM之间同步信息,GTM各自探测本中心的应用业务,根据GTM的服务器状态判断应用业务的可用性。当GTM或数据中心链路出现DOWN时,将该业务自动切换至灾备数据中心。热备数据中心通过GTM技术实现自动主备数据中心切换。
四、双活
通过双活技术可以实现主备数据中心均对外提供服务,正常工作时两个数据中心的业务可根据权重做负载分担,没有主备之分,分别响应一部分用户,权重可以是按地域划分,或数据中心服务能力或对外带宽。当其中一个数据中心出现故障时,另一数据中心将承担所有业务。具体实现上,多活技术部署了很多种检测故障的方式,比如:ICMP Monitor、TCP Monitor、HTTP Monitor,FTP Monitor。还可以实时检测服务器的运行状态、服务器负载均衡的情况,即使在没有故障的时候也可以根据应用业务量在多活数据中心之间调整。多活的最大特点是不会造成数据中心的资源存在浪费,数据中心都承载应用业务运行。不至于出现像热备、暖备主用数据中心几乎满载运行,而备用数据中心却很空闲的情况。除了双活技术还有多活技术,多活就是业务在多个数据中心上同时运行,当有一个或多个数据中心故障时,其它数据中心将自动接管所有应用业务。显然多活比双活可靠性更高,但投入成本也会高,实现技术也更为复杂。现在在金融行业、互联网行业的数据中心都乐于采用多活技术,虽然投入大,但稳定性是这些数据中心优先考虑的事。
无论采用哪种灾备技术,应该根据自身数据中心应用业务的重要性、建设经费、人员技能水平等综合考虑采用哪种灾备技术。不见得一定要采用双活/多活灾备技术,虽然这种技术可靠性最高,但实现复杂,进行扩容、业务变更等都需要大量专业的技术知识,所以除了建设成本高,后期投入的维护成本也很高,这将给数据中心带来沉重的运营包袱。应该深入研究这四种灾备技术,结合自身的实际情况,综合选择。灾备技术在数据中心中越来越重要,已经逐渐成为数据中心必备的重要技术之一。