计世网

人工智能提高数据中心的可用性和效率
作者:Ann Bednarz | 来源:计算机世界
2018-10-16
利用机器学习,数据中心运营商能够更好地处理散热、功耗和性能等问题。

 

随着企业开始采用经过数据中心大运营商和托管服务提供商试用和测试过的机器学习技术,人工智能将在数据中心运营中扮演更重要的角色。

目前的混合计算环境通常涉及到本地数据中心、云和托管站点,以及边缘计算部署。企业发现管理数据中心的传统方法并不是最优的。通过使用人工智能,正如机器学习所展示的那样,极有可能简化复杂计算设施的管理。

目前,人工智能在数据中心的应用主要是围绕使用机器学习来监测设施组件,并进行自动管理,例如电源和配电单元、散热基础设施、机架系统和物理安全等。

在数据中心设施内部,有越来越多的传感器收集来自包括电源备份(UPS)、配电装置、开关设备和冷水机组在内的设备的数据。关于这些设备及其环境的数据由机器学习算法进行解读,这些算法深度分析性能和容量,并确定适当的响应,例如更改设置或者发送警报等。随着条件的变化,机器学习系统从变化中学习——它实际上是被训练为自我调整,而不是依赖于具体的编程指令来执行其任务。

其目的是使数据中心运营商能够提高设施的可靠性和效率,并有可能更自主地运行这些设施。然而,获取数据并不是一项简单的任务。

施耐德电气公司数据中心全球解决方案高级主管Steve Carlini说,基本需求是获取来自主要组件的实时数据。也就是那些冷水机组、冷却塔、通风机、风扇等组件的实时数据。在IT设备方面,它意味着服务器利用率、温度和功耗等指标。

Carlini说:“很难对数据中心进行评价。数据中心与配电和散热有关的连接点是非常多的,如果企业想尝试人工智能,就需要获得这些连接点的数据。”

IT专业人员习惯于设备监测和实时报警,但在机房设施方面并非如此。Carlini说:“IT设备对信息的要求是即时的,而在电力系统中,不是即时的,其环境不同。”

过去不到十年的时间里,第一个数据中心已经完全仪表化了,用仪表来监测供电和散热。在仪表存在的地方,很难进行标准化:数据中心运营商依赖于采用多种通信协议的楼宇管理系统——从Modbus和BACnet到LONworks和Niagara,并且必须兼容不共享数据或者不能通过远程控制进行操作的设备。Carlini说:“TCP/IP、以太网连接——这类连接在传动系统和散热领域是前所未闻的。”

好消息是数据中心监测正朝着高级分析和机器学习所需的深度发展。Carlini说:“服务提供商和托管提供商一直非常擅长在子架级或者机架级进行监测,以及对能源使用情况的监测。企业开始部署它,这取决于数据中心的规模。”

机器学习让数据中心保持凉爽

2016年,德尔塔航空公司由于电力系统故障导致数据中心停电,三天时间内停飞了大约2000次航班,使该航空公司损失了1.5亿美元。这正是基于机器学习的自动管理功能可以避免的应用场景。由于数据中心性能的进步以及云中数据池的出现,智能系统有可能发现数据中心运营中的漏洞,从而提高效率,而这是手动过程做不到的。

机器学习推动的智能应用的一个简单例子是基于状态的维护,它应用于数据中心中的消耗品,例如,冷却过滤器等。Carlini说,通过监测流过多个过滤器的空气流量,智能系统可以检测到一些过滤器是否比其他过滤器更容易堵塞,然后把空气引导到不容易堵塞的单元中,直到需要更换所有过滤器为止。

另一个例子是监测UPS系统中电池的温度和放电情况。智能系统能够发现一个UPS系统运行的环境更热一些,并且可能比其他系统更频繁地放电,然后会将其指定为备份UPS,而不是主用UPS。Carlini说:“它站在你的角度为你思考。这可以手动完成,但机器也可以做到。这是最基本的。”

层次更高的应用是动态散热优化,这是当今数据中心机器学习更常见的例子之一,尤其是对于数据中心大运营商和托管提供商。

通过动态散热优化,数据中心管理人员可以根据环境条件监测并控制机房的散热基础设施。当设备移动或者计算流量出现激增时,建筑物内的热负荷也会发生变化。动态调节散热输出,以转移热负荷,这有助于避免不必要的散热能力并降低运行成本。

451 Research公司的数据中心技术和生态效率IT渠道研究总监Rhonda Ascierto评论说,托管服务提供商是动态散热优化技术的主要采用者。

Ascierto说:“机器学习对数据中心来说并不陌生。长期以来,人们一直想根据容量和需求来更好地进行适当的散热,而机器学习使您能够实时地完成这项工作。”

Vigilent是动态散热优化领域的领导者,其技术用于优化数据中心设施中的空气流,自动发现并消除热点。

Vigilent的创始人、总裁兼首席技术官Cliff Federspiel说,数据中心运营商运行的散热设备往往比实际需要的多。“它产生的温度分布通常还是能接受的,但代价很高。”

如果有一个热点,典型的反应是进一步提高散热能力。在现实中,如果空气流速过快会产生压力差,干扰设备上的空气流,或者阻碍热空气返回到散热设备。尽管这与我们的直觉不符,但能更有效地降低风扇速度。

Vigilent基于机器学习的技术知道哪些空气流设置能够优化每一客户的热环境。该公司称,在需要散热的地方提供适量的散热,通常能够把能源费用减少40%。

除了自动散热系统外,Vigilent的软件还为客户提供了分析功能,用来对其设施做出操作决策。

Federspiel说:“我们的客户对使用这些数据来帮助管理他们的资本支出、他们的容量规划以及可靠性计划越来越感兴趣。这为数据中心很多新的依赖于数据的决策带来了机会。

人工智能让现有的流程更好

展望未来,数据中心运营商正在把成功的动态散热优化技术扩展应用到其他领域。一般来说,在注入机器学习已经成熟的领域中,人们也比较熟悉其需要重复性任务的流程。

Ascierto说:“数据中心新的基于机器学习的方法最有可能应用于现有的业务流程,因为机器学习在全面理解业务问题和规则时是最有效的。”

当然,企业现在也有监测工具。长期可用的数据中心基础设施管理(DCIM)软件能够让人们深入了解数据中心资产、相互依赖性、性能和容量。DCIM软件处理的功能包括远程设备监测、供电和环境监测、IT资产管理、数据管理和报告等。企业使用DCIM软件来简化容量规划和资源分配,并确保尽可能有效地使用电源、设备和机房空间。

Ascierto说:“如果你有基本的监测和资产管理机制,那么你的容量预测能力会大幅度提高。人们现在正在使用自己的数据开展这方面的工作。”

下一步:向DCIM混合软件添加外部数据。这就是机器学习发挥关键作用的地方。

数据中心管理即服务,也就是DMaaS,是基于DCIM软件的服务。但它不是DCIM软件简单的SaaS交付版本。DMaaS进一步收集数据,汇集多个数据中心的设备和设施数据。然后,使用机器学习对数据进行匿名化和汇总处理,并进行大规模分析。

DMaaS市场的两家早期参与者是施耐德和伊顿公司。这两家供应商利用其数据中心多年的经验挖掘出大量数据,其中包括设计和建造数据中心、楼宇管理、配电,以及供电和散热服务等。

Ascierto说:“施耐德和伊顿正在从事的工作将带来巨大的变化,也就是拥有大量客户数据的数据湖。这对数据中心部门来说非常有趣。”

这些数据来自各种客户的各种操作环境,因此获得这些数据后,企业能够把自己数据中心的性能与全球基准性能进行比较。例如,施耐德被称为EcoStruxure IT的DMaaS产品,与含有500多名客户和220万个传感器的基准数据的数据湖相关联。

Ascierto说:“企业不仅可以使用自己的数据来理解和解决这些问题,而且还可以使用数千个其他设施的数据,包括许多与你的企业非常相似的设施的数据。这就是最大的不同。”

例如,预测性和预防性维护受益于深度智能。Ascierto说:“基于其他机器——这些机器运行在类似的使用环境中,有类似的使用情况、类似的寿命,以及类似的组件,人工智能能够预测哪里会出现问题。”

场景规划是另一种能够从机器学习受益的流程。例如,企业现在进行场景规划,估算设备移动对功耗的影响。Ascierto说:“没有机器学习也能做这项工作。但是,把机器学习数据和历史数据应用到具体的配置和不同的设计中——能够确定某一配置或者设计结果的能力会大幅度提升。”

风险分析和风险缓解计划也将受益于更深入的分析。Ascierto说:“数据中心现在实在太复杂了,而且规模如此庞大,以至于人类很难找到模式,但对于机器来说这非常简单。”

未来,机器学习在数据中心的广泛应用将使得企业拥有更强的深度分析能力,更好地决定在哪里运行哪些工作负载。Ascierto说:“这对企业来说是非常有价值的,尤其是如果他们围绕最佳执行场所做决定的时候。这一应用程序应该运行在这个数据中心吗?或者我们应该使用托管数据中心?”

展望未来,智能系统可以承担更复杂的任务,使数据中心能够根据在哪里运行最有效或者最可靠来动态地调整工作负载。Carlini说:“复杂的人工智能对未来还是有一些影响的。”

同时,对于初创企业,他强调了设施部门和IT部门加强合作的重要性。

Carlini说:“最重要的是要全面考虑数据中心的所有领域——供电、散热和IT机房。”业界正在努力确保不同领域技术之间的互操作性。企业在人员配备方面也需要这样做。

他说:“从技术上说,这变得越来越简单,但在部门间,还是有孤岛。”

责任编辑:周星如