(一)不要为冷却模块留下遗憾
冷却模块一直都是现代数据中心十分关键的一部分,而如何维护用来实现冷却的CRAC单元则更是重中之重。在冷却设备上的巨额投资,以及维持设施所需的计算机控制资源,都应该确保与预防故障产生,但事实上并非如此。最近我们为了追求能源利用率而试图将每件物品划分至“合适大小”,这将使得每个设备都更明确并减少故障率。尽管如此,设备增加都有自己的界限范围,大家也对需要关闭设备才能进行的预防性维护存有顾虑。更糟糕的是,维护合同通常被视为过于昂贵,甚至若干年后的费用总和可以用来更换一套全新的CRAC单元。另外,CRAC服务通常是设施相关人员进行操作,没有检查清单说明哪些内容需要确认,调整或替换,也没有检测周期。简而言之,与相对简单的维护电话不同,如果没有完善的预防性措施或完全没有进行维护,冷却失效可能成为主要维护关机的故障源。
(二)警惕故意冷却关机的设置
让我们首先纠正对短期内温度升高的过度关注。ASHRAETC9.9在2008年扩大了温度限定范围,确定设备可以在27摄氏度(80.6华氏度)的环境下正常工作,而且可以在32摄氏度(89.6华氏度)的情况下持续工作数天,不影响设备或保修情况。这些参数已经被所有主要硬件制造商所接受。尽管如此,大部门数据中心依旧将冷却设置为比实际需求还要低的温度上。事实上,即使冷却机组已经达到临界或没有冗余设备,独立的CRAC单元依旧可以被关闭数小时来进行完善的预防性维护,这不会使数据中心温度超出限制。在某天关闭冷却系统几小时不会使整个数据中心温度发生急剧变化,这远比因故障失去整个CRAC单元而在一年中最热的时候让机房运行在没有空调的情况下,持续数日甚至数周要强得多。ASHRAE同样定义了“温度升高比例”限制,我们会在其他篇章中介绍。如果维护关机使得温度上升速度高于ASHARE建议值,此迹象说明你需要考虑进行专业的冷却评估。
当我们讨论运行参数时,不可忘记冷却维护中最容易被忽视的项目——设置点。所有的空调都应该进行检查以确认它们保持着相同的温度与湿度级别,当然如果所有设备可以直接显示相关读数,那就更好了。如果各单元的设置点不同,那么空调可能互相竞争,耗费大量能源实际却降低了制冷效果。根据实验结果调整传感器放置位置同样可以帮助实现统一控制的效果。一个通常被忽略的事实是,工厂的地点不一定是好的。随着时间推移,温度或湿度同样会因为传感器故障或设备安装模式变化而有所变化,这使得单元无法有效维护良好的环境。可以考虑根据ASHARE的指导手册来增加设置点,但需要确保可根据ASHARE限制来调整服务器进口温度,保证其不超出进气口高温度限制。这样可以提升冷却效率并降低空调设备损耗。
(三)CRAC单元维护因包括哪些方面
维护CRAC单元最重要的任务便是更换过滤器。脏过滤器会增加电机负担并降低冷却能力。如果过滤器在替换时发现比预期的还要脏,那么因该从源头查找问题原因。灰尘颗粒同样会堆积在计算机硬件过滤器或散热片上,提高内部温度。最常见的污染源是在数据中心内存储物品或对箱子进行拆封,此类行为是绝对不允许在数据中心内操作的。
(四)机械设备养护
需要养护的机械设备取决于所选CRAC单元的类型,但如果有涉及到皮带,它们的松紧需要调整至适当程度。皮带伸展长度与与出厂参数需要维护。设置过紧会导致皮带与轴承承担不必要的负担,而设置过松会导致滑动并降低性能。自动张紧皮带已经问世5年多了,但逐年替换其他皮带可能是比较好的经验法则。在任何情况下,应该根据产商建议的期限更换皮带,及时它们看起来还工作的很好。检查电机支架与滑轮组松紧程度同样重要。当然做任何事情,加些润滑油总是有好处的,但需要注意不要因添加过度而引起漏油或飞溅。干净的机械系统通常会运行的比较稳定与持久。
经常被忽视的问题还包括异常声响。运维人员应当注意声音变化情况,此种变化可能是对某些问题的告警,虽然此种变化可能是间歇性或缓慢持续,但应加以重视,形成习惯。维护技术可能无法发现此类问题,但也不能因此而忽略,它们通常都是大麻烦的前兆。
(五)制冷水平的重要性,电气测试
直接膨胀(DX)单元的制冷水平每年因至少检查一次。制冷水平下降可能意味着泄漏,需要立即发现并修复。水冷型空调(CRAH)单元的比例阀需要定期检测以保障控制与操作。
确保冷凝排水管没有被堵塞以及冷凝泵工作正常同样十分好总要。根据实际情况,冷凝可能不会持续形成数月,这意味着水泵处于空闲状态,系统一直处于缺水状态。这时候因该引入水以保证系统正常运作。
湿度同样需要经常检查。蒸汽灌可能需要更换,也可能红外加湿器已经积累了一定厚度的水垢需要清洗。如果没有定期更换净水过滤器,超声波加湿器同样也可能被堵塞。需要注意,加湿器的服务周期与水质条件有很大关系。水质分析可以帮助确定部件更换的周期与频率。
另一个经常被忽视的内容是电器测试。仅因为CRAC单元正在运行,并不意味着一切正常。因该持续记录不同组件的电流状况(安培)。电机的转数与电流读数同样应该对照着进行记录。不断变化的电流趋势或者电机减速,都很可能意味着引发更深层次的问题。在读取能耗数据之前必须先检查电源连接的紧凑程度。钳夹式测量器可能移动线缆,或让如火警感应线等连接松动,进而导致整个数据中心断电。空调电源线连接状况应该是年度热红外扫描所有用电系统中的一部分。
(六)为外部维护留出时间
对冷却装置的外部部件进行维护(冷水机组、水泵、冷却塔及阀门)是一项大工程,相关内容已经超出本片介绍范围,而且IT工程师对此方面知识也知之甚少。但何时关闭这些设备,需要与IT人员协商一致,尤其在没有冗余设施的情况下,因为相关活动可能会影响到整个数据中心的冷却计划。设施工作人员通常对这些大型部件的维护需求十分重视,但通常会忽略手动阀门操作。关闭与旁通阀可能已经多年没有使用,通常都设置于户外。阀门故障通常是因为腐蚀,甚至可能让阀门无法正常操作。它们要从外部进行清理,如果有必要,还可以从外部进行保护并安排周期维护工作,确保它们在需要时可以正常使用。如果有必要,更换作业可以安排在对数据中心影响最小的时候进行。
简而言之,供应商所提供的维护合同是十分值得考虑的,他们可以提供月度、季度、半年和周年的维护服务。对几乎所有数据中心而言,维护响应时间8小时,覆盖周期5天已经足够(即8/5维护级别)。几天内的气温上升所能产生的实际影响并不会太大,这样可以节省选择24/7维护级别的额外开支。如果是设施内部或第三方进行维护服务,他们应该严格根据制造商的维护程序进行操作。不管是谁负责,IT运维因该在接到维护电话时保持跟踪,对相关文档进行备份,记录发现的问题以及解决方法,记录预防性维护所进行的工作内容,确保结果与期望的一致,这样的预防性维护工作才是彻底和完整的。