任何数据中心中最重要的任务之一都是对网络设备,服务器和数据中心本身的监控。企业通常要制定很多的规划来选择有效的监控解决方案和研究数据中心网络设备的管理方法。
在信息化的时代,构成网络核心的许多关键设备对运行环境有着十分严格的要求。机房一般需要24小时的运行,但很多系统都无法在每个机房安排专人值守,需要部署功能完备的远程监控系统实现机房无人值守。
有一个完善的系统,就只需在监控中心配备24小时的值守人员,而各个远端机房都实现了无人值守。机房的图像及各类相关参数都能够实时的传输到监控中心,监控中心也能够对机房的相关设备进行反向控制。以此来实现一个安全、高效、可靠的机房监控系统。有效的监控解决方案对于维护数据中心网络是至关重要的,部分原因是出于数据中心长期以来都处在被忽略的地位。
无论管理性是否在数据中心里面工作,他们都必须设置有效的报警装置。你无法假设某人走进数据中心去注意控制屏上显示的故障提示。这也是为什么说管理员要确保应用了完善的网络管理和监控解决方案是如此重要。没有到位的网络管理和监控解决方案,可能只有到电话响起才知道发生了问题。
监控数据中心要制定很多规划,这是因为有许多不同的方面都需要进行监控。你很容易将数据中心监控看做是服务器上的制表工作,但实际上数据中心监控比这要复杂的多。举例来说,微软出品的System Center Operations Manager可以在监控Windows Servers上做大量工作,这样所需的规划配置就比较少。但如果你的服务器运行的不是Windows操作系统,那么Sytem Center Operations Manager就没有用武之地。
除了服务器操作系统和应用软件之外,还有其他的要素需要进行监控。举例来说,保持数据中心温度恒定的监控就很重要。多数服务器都有内置的安全装置,如果服务器的温度超出了特定的临界值,安全装置就会在危险发生之前关闭服务器。好的监控解决方案应该能够告诉你数据中心周围环境的温度,如果指定服务器的温度开始接近临界值时,监控解决方案就会向你发出警报。
能量管理也是如此。如果电源发生故障,备份电池应该能让服务器在线维系一定的时间。规格更高的数据中心可能还会配备备份发电机。无论如何,你都必须对电源故障提高警惕,你还需要有到位的解决方案来了解在某个指定时间能提供多少备份电源。
一项好的监控解决方案必须向管理员发出有关服务器硬件,操作系统错误,应用软件错误,网络硬件和环境改变的各项警报。这是一项苛刻的要求,退一步说,这也是为什么说正确的规划如此重要的原因。就笔者所知,没有单一的监控解决方案能执行所有的这些功能。网络架构师典型的做法是购买几种监控解决方案,对他们进行设置以统一的方式发出警报。这种警告可能是以文本信息的方式发送到管理员的移动设备或者电子邮箱,或者是以其他类型的警报形式发送到技术支持。重要的事情是所有的警报都到达同一地点。
机房监控作为系统正常运维的重要手段之一,用户可以在故障发生或者即将发生时第一时间掌握系统运行的参数,为故障排除争取时间,提高整个机房运维的智能化水平。