在互联网的初期,数据中心的规模很小、很简易。大型的电子商务服务数据中心仅用几个19英寸的机架就可以部署所有需要的服务器、存储及网络设备。现如今数据中心,占地面积很大,成千上万英亩,在这些数据中心上矗立着成千上万的机架,上面部署着成千上万的网络设备。由于规模越来越大,设计理念的变迁,这些超大型的数据中心多数已经建立距离市区较远的地区或建立在工业电价便宜的偏远地区。
随着数据中心运营的自动化,像亚马逊(Amazon Web Services)或微软公共云(Microsoft Azure)这样的公司未来会越来越少的雇佣高技术数据中心工程师,通常是安全人员和从事体力劳动的低技能工人要比数据中心高级工程师多,,他们通常高级工程师工作量大,处理更多的工作,比如人工处理硬件交付等。
用越来越少的工作人员管理更多的网络设备,就意味着对于数据中心的电力和冷却基础设施的监控,需要更多地通过传感器来进行实时监控,这样的状况,我们现在将之称为物联网。虽然物联网在一定程度上有助于识别故障,但在很多情况下,具备丰富经验的工程自身积累的多年经验是很难用传感器代替的。比如,经验丰富的工程师可以通过设备发出的声响,分辨设备运行状况,有些声音代表风扇出现故障,通过滴水声音,能够判断漏水位置。
数据中心管理人员需要更多的传感器来监控现代数据中心的基础设施,新一代的应用程序旨在通过将机器学习应用到IOT,以此弥补差距。这个想法就是通过将操作人员的经验转变成电脑规则,以此来分析通过传感器得到音频和视频,例如,自动为日益增加的数据中心添加新的管理层。
451Research(一家研究机构)公司的分析师Rhonda Ascierto表示:”这项服务目标旨在——预测并防止数据中心基础设施的事件与故障的发生, 更快地恢复故障、更快的拥有更多有效的容量意味着可以降低数据中心的风险。”
•预测分析和宽泛的数据多样性
第一步是利用数据中心基础设施管理(即DCIM)软件的预测分析。例如,位于加利福尼亚州奥克兰市的一家名为“Vigilent”的公司出品的软件,该软件的“控制系统是基于机器学习软件,用于确定变量之间的关系,如机架温度,冷却单元设置,冷却能力,冷却冗余,功率使用和故障风险。 它通过打开和关闭单元来调节冷却单元,包括变频器(VFD),上下调节变频器,以及调整单元的温度设定值。“,该软件使用无线温度传感器,并预测如果操作员采取某些措施会发生什么,例如关闭冷却单元或提高温度设定值。
另外一个例子,在英国的Oneserve公司推出的“预测性现场服务管理”软件,其目的是预测维护需求,避免故障,并将停机时间降至最低。 Oneserve首席执行官克里斯·普罗克特(Chris Proctor)说:“通过应用这些技术,应该也可以同时处理规划和采购策略,并能够更准确有效地管理数据中心资产和资源。” (目前,据我们所知,这种功能尚未在任何数据中心内使用。)
Oneserve致力于解决数据中心中运维领域的问题,该公司软件可以将数据中心的运行方式、内部运营、第三方承包商合作。该软件其中的一项工具的可用于跟踪曾经维护过的控制面板,使用户能够详细了解什么地方可能出现故障,或者那些地方已经出现故障多次。如今,这还是需要人工完成数据归类、分析,未来这种数据将会通过机器学习后,由设备完成。
•利用人类经验
San Jose(圣何塞-美国加州西部城市)的LitBit公司推出的产品是将传感器收集的数据与操作人员具有的经验结合在一起。
Scott Noteboom(LitBit公司创始人兼首席执行官),, LitBit的数据中心AI(人工智能),或DAC(数字模拟转换器)曾为雅虎、苹果公司提供数据中心战略,使运营商能够使用机器构建,培训和调整自己的“同事” 学习技巧 这些可以响应数据中心的事件,提醒运营商或最终自动执行操作。 LitBit的方法关键在于辅助学习的一种形式,其中系统在检测到新的异常事件时向运营商发出警报,然后运营商为将来对此类事件做出反应而制定一套规则。 为了收集数据,LitBit有一个移动应用程序,它接受视频,然后可以将其转换成数千个图像进行培训。
Startup公司提供托管云服务,这将允许它利用许多用户的匿名数据来构建更复杂和更准确的模型; 而有些客户会选择将他们训练有素的模型保密,而另外一些客户则可以将其作为额外的收入来源销售。 正如Ascierto所指出的那样,“数据中心管理数据的价值在大规模聚合和分析时会倍增。 通过将算法应用于许多客户聚集的大型数据集,包括不同类型的数据中心和不同的位置,例如,供应商可以预测何时设备故障,以及何时会出现冷却阈值。
•不能完全依赖AI
在运行过程中有很多隐含的知识,将其显露出来作为规则有助于识别问题并更快地进行响应,特别是具有丰富经验的运维人员不在现场时。即使不是从地理位置上来看独立的数据中心,你仍然希望能够在非高峰时间或员工生病期间有效地应对出现的问题。数据中心AI目前还不能完全替代操作人员,但它可以成为一种工具,增强现有技术,并帮助操作人员解决运维问题。
目前,这一领域还不是很成熟,但发展很快。使用传感器数据的机器学习应用程序正在迅速扩展,广泛应用于各种行业。微软研究部门一直在与Sierra Systems(塞拉系统是塞拉集团公司的一部分,它是北美最大的独立IT服务公司之一)公司合作,开发基于机器学习的油气管道缺陷音频分析,利用其认知工具包来帮助对异常进行分类。 在规模的另一端,用于超大规模云的机器学习模型和工具被缩减,压缩的神经网络使用量化权重运行在诸如Raspberry Pi(Raspberry Pi是一款针对电脑业余爱好者、教师、小学生以及小型企业等用户的迷你电脑,预装Linux系统,体积仅信用卡大小,搭载ARM架构处理器,运算性能和智能手机相仿。)的低容量设备上。
由于人工智能的数据中心管理服务是新兴技术,目前还在不断的开发中,而且还需要进行大量的实践培训,因此,不要期望实施基于AI的数据中心管理服务能够很快看到效果,他们还需要大量的培训、实践。实施人工智能可能需要比 DCIM软件安装还多的传感器。“如果你想要利用人工智能实现冷却器端到端,冷水机组到机柜的目标,那还需要一些声学和振动传感器设备,以及环境传感器和电力仪表等设备。如果目标是优化和实现冷却单元的设定温度,那么每个机架(上、中、下)可能需要多个环境传感器。”
通过传感器,建立起基础数据模型,但是它们也必须针对您的特定设备、您的特定工作负载,以及最重要的,对您站点的特性进行优化。培训一个人工智能支持系统需要时间,就像给一个新的人工操作系统安装一样,但是在时间上,类似的机器学习工具将会帮助运行你的数据中心。