大(dà)多数围绕人工智能(AI)的讨论(lùn)都集中在自(zì)动车(chē)辆(liàng)、聊天机器人、数字孪生技术、机器人技术(shù)以及使用基于人工智能(néng)的“智能”系统从大型数据(jù)集中提取商业洞察力。但是人工智能和机器(qì)学(xué)习(ML)总有一天会(huì)在企(qǐ)业数据中心内部的服务器机架中扮演(yǎn)重要角色。
人工智能在提升数据中心效率以及扩展业务方面(miàn)的潜力(lì)可分为以(yǐ)下四个主要类(lèi)别:
电源管理:基于人工(gōng)智能的(de)电源管理有助于优化(huà)加热和冷却(què)系统,从而降低电力成本,减少员工人数,提高效率。该领域(yù)的代(dài)表性供应商包括施耐(nài)德电气、西门子、Vertiv和伊顿公司。 设备管理(lǐ):AI系统可(kě)以监(jiān)控服务器、存储和(hé)网络设(shè)备的运(yùn)行状况,检查系统是否保持正(zhèng)确配置,并预测设备何时会(huì)出现(xiàn)故障。据Gartner称,AIOpsIT基础设施(shī)管理(ITIM)类别的(de)供应(yīng)商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。 工(gōng)作负载管理:人工智能(néng)系统可以自动将工(gōng)作负载实时(shí)移动到(dào)最(zuì)高效的基础(chǔ)设施上,包括在(zài)数据中心内部,以(yǐ)及在混合云(yún)环(huán)境中,在prem、云和边(biān)缘环境之间。有越来越多的小型公司提供基于人工智能的工(gōng)作负载优化,包括Redwood、TidalAutomation和Ignio。思科(kē)(Cisco)、IBM和VMware等重量级企业也有产品。 •安全性:人工智能工具可以(yǐ)“了解”正常网络流量的(de)情况,发现(xiàn)异常情况,区分(fèn)需要安全从业者注意的警报的优先(xiān)级,帮助(zhù)对出了什么问题的事后(hòu)分析(xī),并为填补企业安全防御漏洞提供(gòng)建(jiàn)议。提供此功(gōng)能的(de)供应商包括VectraAI、Darktrace、ExtraHop和Cisco。
综上(shàng)所述,人工智能可以帮助企业创建高(gāo)度自动化、安全、自我修复的数据中心,这些数(shù)据中心几乎(hū)不需要人工(gōng)干预,并且(qiě)能(néng)够(gòu)以高水平的效率和弹性运行(háng)。
戴尔技(jì)术公司全球CTO办公室的杰出工程师Tabet解(jiě)释说:“人工智能自动(dòng)化可以扩展到超出(chū)人类能(néng)力的水平(píng)来解释数据(jù),收集优化(huà)能源使用、分配工作负载和最大化效率(lǜ)所需的(de)必要见解,以实现更高的数据中心资产(chǎn)利(lì)用率。”。
当然,就像自(zì)动驾驶汽车的承诺一样,自动驾(jià)驶数据(jù)中心还没(méi)有出现。在(zài)数据中心,存在着(zhe)阻碍人(rén)工智(zhì)能突破的重大技(jì)术、操作(zuò)和(hé)人员(yuán)配(pèi)备障碍。如今,采(cǎi)用技(jì)术才(cái)刚刚起(qǐ)步(bù),但潜(qián)在的好处将使企业不断(duàn)寻找机会采(cǎi)取行动。
电源管理利用服(fú)务器工(gōng)作负载管理
据估计,数据中心将消耗(hào)全球3%的(de)电(diàn)力供应,造成约(yuē)2%的温(wēn)室气体排(pái)放,因此,无论(lùn)是为(wéi)了省钱,还是为了环(huán)保,那(nà)么(me)多(duō)企业都在(zài)认真(zhēn)研究数据中心的(de)电源管理。
451Research的(de)高级分析师丹尼(ní)尔·比佐(DanielBizo)表示,基于人(rén)工智(zhì)能(néng)的系统可以(yǐ)帮助数据中心操作员了(le)解当前或潜在的冷却问题,例如,由(yóu)于高密度机柜(guì)堵塞气流、HVAC装置性能不佳或(huò)冷热通道之间的空气密封不足而导致的冷(lěng)空(kōng)气输送不足(zú)。
Bizo说,人工智能(néng)承诺提供“不仅仅是良(liáng)好的设施设计所能带来的好处”。人工智(zhì)能系统在数(shù)据中心层“可以通(tōng)过关(guān)联(lián)暖通(tōng)空调系统数据和(hé)环境感知读数来学习设备”。
IT咨询和咨询公司StorageIO的创始人(rén)格雷格·舒尔(ěr)茨(cí)(GregSchulz)补充说:“电源管理是一个很容易实现的成果。”今天,它是(shì)关(guān)于生产力的,关于每(měi)BTU完成更多工作,每瓦(wǎ)能源(yuán)完成更多工作,这意味着工作(zuò)更(gèng)智能,让设备(bèi)工(gōng)作(zuò)更智(zhì)能。”
还(hái)有一个容量规划的角度。除了寻(xún)找(zhǎo)热点(diǎn)和冷点之外,人工(gōng)智(zhì)能(néng)系统还可以确保数据中心为适当数量的物理服务器供电,并且在(zài)需求临时激增的情(qíng)况(kuàng)下,有能力启动(dòng)(和关闭)新的物(wù)理服务器。
Schulz补(bǔ)充说(shuō),电源管(guǎn)理工具正在开发连(lián)接到管理设备和工作负载(zǎi)的系(xì)统的挂钩。例如(rú),如果(guǒ)传感器检测到服务器运行太热(rè),系统可能会快速自动地(dì)将工作负载转移(yí)到未充(chōng)分利用(yòng)的服务器上,以避免可能影响任务关键型应用程(chéng)序的潜在停机。然后系统可以调查服务器过热的(de)原因——可能是风扇出故障(HVAC问题)、物(wù)理组件即将崩溃(设备问题),或者(zhě)服务(wù)器刚刚过(guò)载(工作负载问题)。
人工智能(néng)驱动的(de)健康监控、配(pèi)置管理监督
数据中心充满了需(xū)要定期维护(hù)的物理设备。人工智能系(xì)统可以(yǐ)超越定(dìng)期维护,帮助收集和分析遥测数据,从而确定需要(yào)立即关注的特定区域。”人工智能工具可以嗅出所有这(zhè)些数据和(hé)斑(bān)点模式(shì),以(yǐ)及(jí)异常点,”Schulz说。
Bizo补(bǔ)充说(shuō):“健康(kāng)监测从检查设备配置是否正确以及性(xìng)能是否符合预期开始。”由于有成百上千个IT机柜和数万个组件,这些平凡的任务可能是劳动密集型的(de),因此并不(bú)总是能够及时(shí)彻底地执(zhí)行。”
他指出(chū),基于大(dà)量感官数据日(rì)志的预测性设备故障模型可以“发现一个即将出现的(de)组件或设备(bèi)故障,并(bìng)评(píng)估其是否需要立(lì)即维(wéi)护,以避免任(rèn)何可能导致服务中断的容量(liàng)损失。”
JuniperNetworks负责企业和(hé)云营销的(de)副总(zǒng)裁(cái)MichaelBushong认为,企业数据中心运营(yíng)商应该忽略(luè)一些(xiē)与人工智能相关的过度宣传和炒作,而专注于他所(suǒ)说的“无聊的创(chuàng)新(xīn)”
是的,人工智能系统可能有(yǒu)一天会“告诉我问(wèn)题出在(zài)哪里(lǐ),并加以解决”,但是到了这一(yī)点,许多数据中心运营(yíng)商会接受(shòu)“如(rú)果出了(le)问题,请告诉我要去哪里看(kàn)”,Bushong说依赖关系映射也是AI有用的一个重要(yào)但不是特(tè)别令人兴(xìng)奋的领(lǐng)域(yù)。如果数据中心(xīn)经(jīng)理正(zhèng)在对防火墙或(huò)其他(tā)设备进行策(cè)略更改,可能会产(chǎn)生什么意外后果?”如果(guǒ)我提出(chū)一个改变,知道爆炸半径范围内可能有什么(me)是很(hěn)有(yǒu)用的。
保持设备平稳(wěn)、安全运行(háng)的另一个重(chóng)要方面是控制所谓的配置漂移(configurationdrift),这是一个数据中心术(shù)语,指的是随着(zhe)时间的推移,临时配置(zhì)的变化会导致问题的(de)产生。Bushong说,人工智(zhì)能可以作为“额外(wài)的安全检查”来识别即将发生的基于配(pèi)置的数据中心问题。
人工(gōng)智能与安全
Bizo认为,人工智能和机(jī)器学习“可(kě)以通过(guò)对事件(jiàn)进行快速分类和(hé)聚类来简化事件处理(事件响应(yīng)),从而识别出(chū)重要事件(jiàn)并将其与噪声分离开来。更快的根本原(yuán)因分析(xī)有助于操(cāo)作员做(zuò)出明智的决(jué)定并采取(qǔ)行(háng)动。”
人工(gōng)智能在实时入侵检测中(zhōng)特别(bié)有用,Schulz补(bǔ)充道(dào)。基于人工智能(néng)的系(xì)统(tǒng)可以检测(cè)、阻止和隔离(lí)威胁,然后可以(yǐ)回去进行法医调查,以确定到底(dǐ)发生了什么,黑客能够利用(yòng)哪些漏洞。
在安(ān)全操作中心(SOC)工作的安全专业(yè)人员经常(cháng)会收到过多的警报,但基于(yú)人工(gōng)智能的系统可以(yǐ)扫描大量的遥(yáo)测数(shù)据和日(rì)志信息,从而清除日(rì)常任务(wù),从而使(shǐ)安全专家能够腾出时(shí)间(jiān)来处理更深层次的调查。
基于人工智能的工(gōng)作负载优化
在应用程序层,AI有可能自动将工作负载移动到适当的着陆点,无论是在内部部署还是在云端。”AI/ML将来应(yīng)该(gāi)根据性能、成本(běn)、治理、安全、风险和可持续性的(de)众多规范,实时决定在哪(nǎ)里放(fàng)置工作(zuò)负(fù)载(zǎi)。
例如(rú),工作负载可(kě)以自动移动到最省电的服(fú)务器,同时确保服(fú)务器以最(zuì)高效率运行,即70-80%的利用率(lǜ)。Bizo说,人(rén)工智(zhì)能系统可以将性(xìng)能数据整合到等(děng)式中,因此对(duì)时(shí)间敏感的(de)应用程序在高效服务(wù)器上运行,同时确保不需要快速执行的应(yīng)用程序不(bú)会消(xiāo)耗过多的(de)能量。
基于人工智能的工作负载(zǎi)优化引起了麻省理工(gōng)学院研究人(rén)员的注意,他们去(qù)年宣(xuān)布他们开发了一个(gè)人工智能系(xì)统,可以自动学习如何在数千台服务(wù)器上调度(dù)数据处理操作(zuò)。
但是,正如(rú)Bushong所指出(chū)的,现实情况是,如(rú)今的(de)工(gōng)作负载优化是像亚马逊、谷歌和Azure这样的(de)超大规模(mó)公司的专(zhuān)利,而不是(shì)一般的(de)企业数据(jù)中心(xīn)。原因有很多。
实施人工智能的挑(tiāo)战
优化和自动化数据中心是正在进行的数字化改造计划的一个(gè)组成部(bù)分。戴尔的(de)Tabet补(bǔ)充道(dào),“借助COVID-19,许多(duō)公(gōng)司现(xiàn)在都在寻求进一步(bù)的自动(dòng)化,推动人(rén)工智能驱动、能够自我修复的‘数字数据中心’的理念。”
谷歌在2018年宣布,已将其数个超规模数据中心的冷却系统控制权转为(wéi)人工智能程序(xù),该公(gōng)司(sī)报告称,人工智能算法提供(gòng)的建议(yì)使(shǐ)能(néng)源使用(yòng)量减少了40%。
但(dàn)是,Bizo说,对于那些名(míng)字不是谷(gǔ)歌的公(gōng)司来说,在数据中心(xīn)使用人工智能“在很大程度上是一(yī)种理想”。一(yī)些AI/ML特性在事件处理、基础设施运(yùn)行状况和(hé)冷却(què)优化中可用。但是,AI/ML模型要取得比(bǐ)目前标准(zhǔn)数据中心基础设施管理(DCIM)更明(míng)显的(de)突破还需要(yào)更多年的(de)时间。与自主汽车开发非常(cháng)相似,早期阶段可能很(hěn)有趣,但与它(tā)最终承诺的突破性(xìng)经济/商业案例相去甚远。”
Tabet认(rèn)为(wéi),一些障碍是“需要雇佣或培训合适的人员来管理系(xì)统(tǒng)。另一个需要注(zhù)意的问题是数据标(biāo)准和(hé)相(xiàng)关体系(xì)结构(gòu)的需要。”
Gartner这样(yàng)说:“AIOps平台成熟度、it技能和运营成熟度(dù)是主要的阻(zǔ)碍因素。高级(jí)部(bù)署(shǔ)面临的其(qí)他(tā)新(xīn)挑战包(bāo)括(kuò)数据(jù)质量和“IT基础设施和(hé)运营团队(duì)”缺乏数据(jù)科(kē)学技能(néng)。
Bushong补充说,最大的障(zhàng)碍一直是人。他指(zhǐ)出,外雇数(shù)据科学(xué)家对许多企业来说是一个(gè)挑战,对现(xiàn)有员工的培训也是一个障碍。
另外(wài),Bushong说,员工抵制技术的历史由(yóu)来已久。他指出(chū),软件(jiàn)定(dìng)义网络(SDN)已经存在了十年(nián),但仍有四分之三以上的IT运营仍由CLI驱动(dòng)。
“我们(men)必须相信,各种基础设(shè)施的运营商准备把(bǎ)控制权让给人工智能,”Bushong表示。“如果一群人还不相(xiàng)信(xìn)空(kōng)管员能做出(chū)决定,那么你怎么训练、教育(yù)和安慰一群人,让(ràng)他们做出如此重大的转变呢?业内(nèi)普遍的态度是,如果我这么做,我就会(huì)失(shī)业。”
这就是为什么Bushong建(jiàn)议企业(yè)在(zài)人工智(zhì)能方(fāng)面采取那(nà)些小而(ér)乏味(wèi)的步(bù)骤(zhòu),而不是陷(xiàn)入经常围绕一项新技术的(de)炒作(zuò)中。