想象这么一个情况,如果突然遇到了重大灾害,服务器全部宕机,而其中保存的数据将承受很大的损失。那么,在灾难发生以后,我们应该做什么?什么是应该优先考虑的?应该按照一个什么样的顺序来启动服务器恢复程序?如果去询问相关的业务专家,他们会告诉你一切都是以商业利益为重点,但是你必须要做出一些重要的决定,来取得最好的恢复效果。
建立一个完善的灾备计划是必须的。如果数据中心发生了问题,并且不能够在短时间内恢复,那么服务器就要按照步骤有条不紊的来进行恢复了。
数据中心的定期自检
一些运行关键业务的服务器十分重要。如果数据中心一旦发生了问题,这就意味着这些客户的业务就无法运行了,由此带来的损失是巨大的。这也是为什么数据中心每年要进行两次检查的原因。定期的审查数据中心能够确保服务器运行和业务的重点与目标相一致。这些服务器定期的审查因素包括:
业务影响分析和风险评估
服务器恢复策略
根据不同的周期决定的优先次序变化
相互依存的关系
不同情况下停机的考虑
备份程序
异地存储重要记录
数据保留政策
恢复时间计划(RTO)
恢复重点计划(RPO)
关键的硬件服务器恢复
备用恢复选址
IT和业务管理的停机处理
灾难恢复优先级分类系统
数据中心内部堆满了处理各种业务的服务器和硬件平台。为了防患于未然,你需要建立一个详细的灾备计划。这个灾备计划应该包括关键性的服务器等基础设施的优先恢复计划。你需要了解所有在数据中心中服务器所支持的业务的重要性,来确立灾难恢复的优先级:
你需要什么
你想拥有什么
哪些业务不是必要的
备份恢复团队应该有限分配给服务器,因为它们涉及到一些关键的业务。而服务器按照它们对应的业务可以分为几个不同的类别,分别对应不同的恢复优先级:
关键系统 这些服务器在任何业务流程中都是重要的。它们上运行的业务对客户的影响很大,如果一旦这些服务器出现了问题,不但面临的是业务的损失,甚至还可能引起财务和法律上的纠纷。因此这些服务器的优先级是处于第一序列的。
基本系统 这些服务器通常是维持正常运营的部分。没有它们,这个数据中心将无法正常运行,因此,这些服务器的优先级也是处于第一序列的。
必要系统 这些服务器可以有效的改善企业的经营并提高员工的工作效率,但是在数据中心出现问题后,它们的重要性就显得很一般了。即使没有它们,企业和数据中心也能够正常的运行。因此,这些服务器的优先级是处于第二序列的。
可选系统 这些系统包括测试系统,归档以及历史数据等非必要组件。对于这些服务器,可以排除在灾难恢复的策略之外。
上述的服务器分类提供了一个基本的灾难恢复优先级解决方案。但是,最重要的还是IT团队和业务恢复的团队一起合作,来划分这些服务器的业务范围。将那些不必要的服务器剔除后,灾难恢复计划中的服务器数量减少,不仅有利于提高服务器的备份和恢复效率,另一方面也节省了财政预算。
软件环境
如果要恢复关键任务的应用程序列表,还必须要考虑这些应用的相互依存关系。很多软件的解决方案都是模块化的,它要求所有的软件必须100%完整。换句话说,如果要完全恢复正常的工作,就必须恢复所有的应用。你可以不使用特定的业务功能,但整个解决方案必须正常运行。
当编译的关键任务应用程序的列表,还必须考虑应用的相互依存关系。 首先,许多软件解决方案被认为是模块化设计,但软件必须是百分之百的完整的 - 换句话说,完全恢复正常工作。 你不能打破的应用,除了服务器的配套基础设施。 您可以选择不使用特定的业务功能,但整个解决方案必须重建百分之百正常运行。但问题是,恢复所有的应用程序是不是太浪费时间了。忽略一些非关键的库可以节省时间,可以更快的实现灾难恢复。这些非关键的库和用户目录包括:
性能数据
审核数据
测试库
ERP的预装库
网络教育
开发者库
用户测试环境
数据存档
电子数据交换
试用软件
临时工作目录产品
不可忽视的硬件要求
在确定每一个灾难恢复计划之前,必须要确定那些处理关键业务的服务器的最低硬件要求。很多人忽视灾难恢复计划后业务的连续处理能力,只是单纯的认为有总比没有好。而事实上,如果灾难恢复后的服务器只能处理一半的业务,没有企业会愿意接受的。我们不能告诉客户,由于一场灾难,我们只能处理一般的订单。即使客户接受了,可损失的还是企业。虽然通过减少一些不必要的应用可以提高服务器处理的能力。但是,最好的办法,还是在制定灾备计划之前, 就确定好这些服务器的最低硬件要求。
不能忽视的人为因素
如果数据中心发生了灾难,没有工作人员的操作,服务器是无法自己恢复的。很多公司只把精力放在了制定完善的灾难恢复计划上了,却忽略了工作人员的重要性。一个很好的例子是,当墨西哥湾沿岸发生飓风后,虽然当地的数据中心有着完善的灾备计划,但是由于发生灾难后,当地的交通变得很困难,导致工作人员无法到达指定地点。因此,如果工作人员无法正常操作,再完善的灾备计划也是没有用的。
完善的灾难恢复计划
当有了一个完善的灾难恢复计划后,一旦数据中心出现了问题,就可以有条不紊的按照步骤执行恢复。保证业务的正常运行,并将损失降低到最小。