云计算和虚拟化等新技术的出现,使得数据中心演变成一个迥然不同的环境。然而,任何数据中心都需要某些关键要素来保证运作顺利。无论你的数据中心只有更衣柜那么大,还是大如飞机场,或者甚至是传言中谷歌正在浮动驳船上建立的数据中心,这些要素都将适用:
1、环境控制
一个标准化的、可预测的环境是任何高质量数据中心的基础。这不仅仅是冷却和保持适当的湿度(维基百科推荐的温度范围是61-75华氏度/16-24摄氏度,湿度为40%-55%)。你也必须考虑到消防、气流和功率分布等因素。我曾接触过一家公司很认真地确保他们的数据中心尽可能地保持纯净,任何纸箱都不能存储在那个房间。这是由于把冷空气引到前部机架的分布机制,让纸板粒子会进入气流,可能会污染服务器。这可能有点极端但说明了这一观念的重要性。
2、安全
无需多言,物理安全是一个可靠数据中心的基础。妥善保管你的系统,并只允许授权人员进入,并手持准许证通过网络对服务器、应用程序和数据进行必要的访问。可以肯定地说,任何公司的最有价值的资产(当然除了人)都存在于数据中心。三流小偷的目标是笔记本电脑或个人手机。专业的小偷则将目标定在数据中心。门锁可以被撬开,因此建议不如使用警报。当然,警报也可能没有用,所以想想下一个方法:锁住服务器机架?为你的安全系统准备备用电源?雇佣保安?这取决于你的安全需求,但请记住,“安全是一个长期的过程。”
3、问责制
应该说,大多数IT人员都是专业的和值得信赖的。然而,这并不能否定数据中心需要问责制来追踪人机的互动。数据中心应该记录证件准入的细节(并且这些记录应该由IT以外的部门保管,如安全部门,或者副本同时保存在IT主管和副总裁的手中)。访客应该进入和离开时登记,并一直被监视着。应该开启网络/应用程序/文件资源的审计工作。最后同样重要的是,每个系统都应该有一个确定的人掌管,无论它是一个服务器、路由器、数据中心冷却装置,还是警报系统。
4、策略
数据中心中的每一个过程背后都应该有一个策略方针来帮助维护和管理环境。你需要系统访问和使用策略(例如,只有数据库管理员能完全控制数据库)。你应该有数据保留策略——备份应该被存储多长时间?要将它们保存在厂区外吗?如果这样的话,什么时候到期呢?同样的理念也适用于新系统的安装,检查过时的设备/服务,及删除旧设备——例如,清除服务器硬盘、捐赠或回收硬件。
5、冗余
正如旧汽车也需要备用轮胎一样,你的数据中心也许更新、更贵,并且非常重要,因此你需要的不仅仅是一个备用轮胎来确保它保持健康运作。对于企业赖以生存的一切你都至少需要两份,无论是邮件服务器、 ISP、数据光纤链接,还是VOIP语音电话系统都适用。三个或三个以上的备份在很多情况下都不会有坏处!
除了冗余组件,测试及确保系统正常工作的过程也同样重要,比如定期的故障转移训练和新方法的研究。
6、监控
监控系统的正常运行时间和健康状况具有前瞻性的价值,但这仅仅是开始。你还需要监控使用了多少带宽、能源、存储、物理存储空间,及其它任何由数据中心提供的“商品”。
Nagios等免费的工具可以进行基本的监控,Dranetz可以完成功率测量等更复杂的解决方案。运行中断或低阈值造成的警报是监控中的一部分,确保为你的警报布置一个失效保护,使它们能独立于数据中心(例如,如果VMWare ESX主机上的电子邮件服务器故障了,另一个系统要能进行监控,并能够发出通知)。
7、可扩展性
你的公司现在需要25台服务器来完成包括虚拟化、冗余、文件服务、电子邮件、数据库和分析等在内的一系列的任务吗?你下个月、明年,或者是下一个十年又将需要什么呢?必须确保你的数据中心具有足够的扩展性来增加电力、网络、物理空间和存储。
对可扩展性的规划不是静止的东西,它是一个持续的过程。明智的公司对其积极地跟踪和报告。这些报告能指出可扩展性需要满足的下一个地方,比如物理存储空间匮乏。
8、变更管理
你也许认为变更管理属于“策略方针”部分。然而,我认为这既是策略又是哲学。恰当的变更管理指导方针能确保数据中心不出现计划外的事件。无论是上线新系统还是撤销旧系统,数据中心中所有元素的生命周期都必须与变更管理的规划一致。
9、有条不紊
每一个IT专业人士都感觉时间紧迫。由于怕错过最后期限,可能导致一些“抄近路”行为,一旦如此,往往难以保证环境又好又整洁。
一个成功系统的实现并不仅仅意味着装上它,然后打开,它还包括以标准化和可技术支持的方法对数据中心进行设备整合。你的服务器机架应该是干净而符合逻辑的(生产系统在一个架子上,测试系统在另一个架子上)。你的电缆应该长度适中,根据电缆运行指南运作,而不是随意地折叠。
10、文档
最后一点是需要有合适的、有用的和及时的记录,如果你不遵循严格的程序,在实施中很容易产生问题。把交换机布局和服务器插头的位置匆匆拼凑成图表是不够的,你的变更管理指导方针应该包括保存相关的文档,并且随着细节的补充可用于所有的相关人员。
这并不是危言耸听,而是以“车祸”原则为指导。假设明天我被车撞,其他人至少不用担心我的工作或个人文档是否是最新的,因为我每周花时间来确保所有的变更和调整都有相应的记录。更夸张的是,如果我决定换工作,我不用再花两个星期狂乱地记录我对系统所做的一切。