计世网

数据中心:工业AI的理想用例
来源:新天域互联
2018-10-24
管理层的一个重复原则是“可以衡量的是可以衡量的。

 

管理层的一个重复原则是“可以衡量的是可以衡量的。”从财务到生产力,众多众所周知的指标和关键绩效指标,如每个员工的收入,推动业务流程和管理系统。

测量和指标在运营系统中变得更加明显。从质量到效率,这些指标通常定义流程本身。

与数据中心相比,很少有运营环境从流程优化中获益。这些设施拥有巨额资本支出(见证Facebook的7.5 亿美元和谷歌的6亿美元新数据中心)和同样重要的运营成本(它们消耗全球3%的电力,碳足迹等于全球航空业)。这些设施构成了我们日常生活的支柱,从视频流到商业和银行业,它们的重要性只会随着数字化的扩展和新服务的不断涌现而增加。优步证明了这一说法。

然而,数据中心正在经历严重的中断。更加注重降低成本和风险,同时提高灵活性,这使得这些设施成为新的焦点。重要的是,数据中心还有其他几个行业增加的方面:可选性。

数据中心指标

不出所料,有许多用于测量和运营数据中心的既定指标,包括电源效率,可用性和空间利用率。但是,随着数据中心市场的变化,我们现在是否专注于正确的指标?对于现有指标,我们是否捕获了正确的数据点?是否有隐藏的指标和模式等待被利用以最大化这些设施的效用?

为了解决这些问题,我们首先考虑数据中心设施本身。简而言之,这些设施的规模,复杂性和所需的优化需要“人工智能管理”,因为它们越来越无法通过传统规则和启发式方法进行规划和管理。推动这一趋势的因素有很多:

效率和环境影响:正如本文开头所提到的,数据中心消耗了大量的能源,因此,该行业在其能源足迹方面面临着无可否认的审查。再加上消费成本,运营商正在以更具创造性和复杂性的方式解决效率问题。

数据中心整合:数据中心绝对受益于规模经济,无论企业数据中心是合并还是移动到共址设施,结果都是更大的设施,密度和功率使用都要增加。

共址提供商的增长:如同最近的451集团报告所指出的那样,可用性,效率和降低成本至关重要的Equinix和Digital Realty 等共址提供商的增长速度是整体市场的五倍。这些提供商规模庞大,其效率驱动的商业模式将推动AI为竞争对手提供明显的优势。

边缘计算:边缘数据中心的兴起,通常在地理上分散的小型数据中心,可以最佳地放置工作负载。这些边缘节点与中央数据中心或云计算相结合,形成了更大的协作计算结构,而不是独立的实体。这种丰富的拓扑结构为优化和可用性提供了大量输入和控制,再次由AI进行最佳管理。

随着数据中心市场的发展,上述因素得到了更多关注,但还有另一个因素 - 也许是最重要的因素 - 直到最近才被忽视。

管理工作量

为了解释这个因素,让我们考虑一个说明性的类比。为什么房子存在?不是为了结构,而是为居民提供住所和舒适。同样,为什么数据中心存在?不是为了许多服务器和大规模的电力和空调系统,而是为了在数据中心运行的应用程序或工作负载。

数据中心内的所有资产,从软件系统到设施本身,以及这些资产的管理流程,都只是为了支持在这些资产上运行的工作负载。这产生了Workload Asset Management的规则,其定义为“通过智能洞察和对底层资产的全面管理实现工作负载优化”。

工作负载资产管理如何通过AI口号扩展管理?在许多方面,包括:

通过将预测的虚拟化,设施或IT设备状态纳入工作负载管理,优化可用性。工作负载可以预先在虚拟环境中,数据中心内或跨数据中心移动,或与云替代方案协调,以优化应用程序可用性;

通过将当前和预期的“每工作量成本”等新因素纳入安置和管理考虑因素,从而全面管理工作量 ;

通过基于工作负载行为管理设施来优化能源使用。当没有人在家时,为什么房子要完全冷却?我们没有。数据中心不应该以相同的方式工作吗?通过深入了解工作负载本身,可以根据当前和预期的行为来限制冷却和IT系统;

通过使用多变量分析改进预测性维护和故障情景,整合所有可用数据点,包括来自工作负载的数据点,以改善结果;

通过规范和合理化整个生态系统(从设施到工作负载)的重要事件,智能地管理警报和警报。数据中心的一个常见问题是处理链式警报,因此很难解决问题的根本原因。边缘数据中心的增长(通常是远程和无人值守)极大地加剧了这一问题。AI与速率变化相结合,偏差或类似算法提供了识别和处理关键警报的理想机制。

工业人工智能市场的这一部分正在出现几个重要和共同的趋势:

使用所有输入来优化结果:数据中心操作可生成大量有用的管理信息,从关键基础架构(电源,散热)到安全(漏洞,异常)再到IT(服务器,虚拟化)。通常,仅使用此信息的一小部分,或者根据特定度量或KPI进行定制。然而,真正的认知系统允许考虑所有输入,因为可能存在先前未知但丰富的模式,这极大地改善了结果。

从被动转变为主动:数据中心主要是被动的:应用程序移动发生在故障之后; 热系统根据温度变化运行; 安全漏洞后解决漏洞。一个良好实施的AI系统,具有丰富的数据输入,认知分析和适当的命令和控制系统,从根本上将数据中心从被动模式转变为主动模式。如果根据未来最佳地放置工作负载会怎么样?需求和基础设施状态?如果根据非常准确的未来失败预测对设备进行抢先修复怎么办?如果根据预期的安全异常预先关闭入口点怎么办?从被动操作到主动操作的转变代表了数据中心市场的最新技术。

替代方案的分析:假设情景是管理系统的支柱,但它们往往是手动和“离线”。相比之下,真正的人工智能系统使用所有可识别选项的实时分析,利用丰富的输入来确定结果。在具有与数据中心一样多的变量的环境中,假设情景根本无法提供所需的实时信息并深入了解运营备选方案。

数据中心是工业AI的理想用例:复杂,能源密集和关键,具有大量输入和控制点,只能通过自动化系统进行适当管理。随着数据中心不断发展的创新,从应用程序性能管理链接(APM)到物理基础架构到紧密链接的虚拟化和多数据中心拓扑,AI的需求和优势只会增加。

责任编辑:何周重