近日,ITU(国际电信联盟)正式发布基于大数据与人工智能技术的数据中心基础设施管理系统推荐性标准ITU-T L.1305。本推荐性标准由ITU-T Study Group 5工作组(环境与循环经济)制定,针对数据中心基础设施管理系统(DCIM)做出定义和推荐,适用于数据中心场景,重点阐述了DCIM的原则、管理对象、功能要求以及基于大数据与人工智能技术的智能控制与运维,旨在使能智能化技术在数据中心的应用,为降低数据中心基础设施的能源与维护成本提供借鉴思路。
随着5G、云计算、人工智能与大数据等新技术的迅猛发展与应用,数据中心正在进入新的高速发展时代。伴随对IT算力需求的急剧增长,服务器功率持续提升,推动数据中心继续向高密化发展,预计15~20kW/柜将成为未来的主流配置,能源消耗持续攀升,从而对基础设施的可靠性与能效提出了更高的要求。此外,随着云平台上IT负载的全自动迁移和调整,负载波动将成为常态,需要借助精确而动态的冷却技术来提高数据中心能效水平。因此,保障数据中心的可靠运行、降低数据中心的能源与运维成本,成为目前数据中心运维管理面临的主要挑战。
在ITU本次发布的标准中,定义了数据中心基础设施管理系统的几个关键技术点,以期帮助数据中心业主解决上述挑战:
DCIM需要具备全栈式数字运维功能。相对于以往的人工运维模式,全栈式数字运维可以大幅提升数据中心运维管理的标准化与智能化程度,提升数据中心运维工作的质量与效率,降低数据中心的运维人力成本。 DCIM需要支持移动运维功能,可以通过手机、平板等多种移动终端设备访问管理系统。在日常运维工作中,可以通过移动终端快速获取设备巡检与维护指导,提高运维操作的规范性,避免人为操作不当,降低对运维人员的技能要求。 针对数据中心节能,ITU标准强调可以使用人工智能技术来帮助用户降低数据中心的PUE。通过引入深度神经网络算法,DCIM可以构建数据中心PUE预测模型,并自动调节数据中心制冷系统的运行状态,精准匹配ICT设备的制冷需求,从而大幅节省数据中心的能源成本。 ITU标准提出可以基于大数据与人工智能技术来实现设备的早期预警,以促进预测性维护在数据中心的实施落地。针对数据中心关键设备,DCIM可以提前识别重大故障,分析故障关联信息并进行快速定位,支撑运维人员高效处理故障与提前维护设备,减少安全隐患。 为了支撑大数据与人工智能技术在数据中心的应用,ITU标准给出了推荐的数据采集技术要求,明确了数据中心节能所需的设备运行参数清单。同时,通过定义数据采集技术要求,可以降低数据中心基础设施管理系统(DCIM)的集成与部署风险,缩短项目交付周期。
该标准由ITU-T Study Group 5工作组发起制定。在全球主管部门、运营商和供应商的通力协作下,该标准已经于2019年12月正式发布。