数据中心的正常运行时间对于企业的业务成功至关重要,而确保不间断服务需要维护人员时刻保持警惕和维护。随着企业越来越多地部署业务关键型应用程序,这种对持续维护和依赖基础设施的需求也在增加。
虽然运营商不断创新以引入新的基础设施管理工具,但许多工具仍然无法实现业界所追求的提高自动化和减少维护的要求。因此,许多IT专业人员仍在全天候地人工处理需要调整的问题。
运营商在与客户沟通时不断出现的一个主要痛点是维护周期仍然需要人为干预。此外,运营商将大部分预算用于保持数据中心持的续运营状态,并大量支出运营预算。
这就产生了一个问题:尽管运营商不断采用新的工具来处理这个问题,为什么维护工作仍然让数据中心工作人员夜不能寐。到底哪里出现了问题?
传统基础设施工具的不足之处
真正消除管理基础设施的负担需要具有预见性,以便在问题发生之前预测问题,同时能够提供对工作负载和资源的深刻洞察力,以便更好地优化基础设施。
这就产生了一个问题:尽管运营商不断采用新的工具来处理这个问题,为什么维护工作仍然让数据中心工作人员夜不能寐。到底哪里出现了问题?
为了让工作人员不再为数据中心维护而失眠。考虑以下四个因素来确定运营商的工具是否在克服令人沮丧的维护问题方面做得不够:
1、不具备学习能力
只是提供本地系统指标的分析往往提供有限的价值。相反,运营商应该在工具中获得的是能够从数千个对等系统的行为中学习的能力,以帮助检测和诊断发展中的问题。从某种意义上说,可以集思广益。
数据收集和分析的整体方法可以从大量的工作负载中汇集观测结果。这允许在一个站点识别的罕见事件在另一个站点被预先避免,并且更准确地检测更常见的事件。
2、未能看到整体情况
传统工具通常只能以孤岛的方式提供分析;每个设备仅提供系统状态,这只是整个过程的一部分。由于在基础设施堆栈中任何地方都会出现中断应用程序的问题,因此有必要有能力跨多个层进行跨堆栈分析,以获得更大的视野。这将需要诸如应用程序、计算、虚拟化、数据库、网络和存储等关键组件。
3、不够了解深入
预测建模需要深入的领域经验—了解基础设施堆栈中每个系统内的所有操作、环境和遥测参数。通用的分析只能如此深入。人工智能行业专家可以采用机器学习算法从历史事件中识别因果关系,进而预测最复杂和最具破坏性的问题。
4、不能自主操作
也许传统工具的最大缺点是无法采取自主行动。而在理想的自主操作状态下,数据中心将是自我管理、自我修复和自我优化。从本质上讲,他们应该能够避免问题或改善环境,而无需管理员的人为干预。要实现这种自动化水平,需要经过验证的自动化建议历史记录,以提供必要的信任和信心。
数据中心维护的未来
为了克服传统工具的局限性,并降低维护需求,以及使数据中心自动化——人们将不得不采用新一代的人工智能解决方案。这意味着利用能够观察、学习、预测、推荐并最终实现自动化的工具。
通过观察,人工智能将能够针对各种工作负载和应用程序开发对理想操作环境的稳态理解。深度系统遥测与全球连接相结合,可以实现快速的云计算机学习,从而使人工智能工具能够通过模式匹配算法快速预测问题。甚至可以根据过去的历史配置和工作负载模式为新的基础设施建模和调整应用程序性能。
基于这些预测分析,人工智能解决方案可以改善数据中心环境所需的适当响应,最后将消除IT团队的压力,他们不再需要通宵达旦地管理基础设施,并寻找问题的根源。更重要的是,如果人工智能被证明是有效的,那么可以在没有IT管理人员干预的情况下自动应用。对于数据中心来说,这正是实现自动化的目标。
例如HPE公司的客户利用人工智能工具在86%的时间内自动预测和解决问题。此外,他们在存储问题上减少了85%的时间,甚至可以减少79%的IT存储运营支出。因此,部署人工智能以协助数据中心基础设施的优势是不可否认的。
随着技术进步促进市场发展,预计到2030年,一些国家和地区将面临200万IT专业人才短缺的情况。而自动化将成为数据中心管理的未来前沿技术。