毫无疑问,对于数据中心运维团队来说,机房搬迁是一项令人望而生畏的任务。甚至在数据中心的整个生命周期中,没有什么任务会比机房搬迁更加困难——从某些角度看,机房搬迁比最初的数据中心建设、投运更加复杂,风险也更大。
但是随着企业业务的增长、机房整体寿命临近,或者干脆是机房到期因为某些因素无法续约等问题,机房搬迁往往是不可避免的。复杂或者困难并不是逃避的理由,如何做好规划,成功的完成机房搬迁任务,是IT运营团队的必须职责。
考虑当前线上业务的重要性,并且数据已经成为众多企业的核心资产,机房搬迁的首要任务不是简单的确保硬件的迁移成功——实际上硬件迁移的优先级并不高——而是保障“业务的连续性”和“数据的安全性”两大核心目标的成功实施。对机房搬迁的一切规划,都需要围绕这两个核心目标来进行。
本文尝试从搬迁准备-搬迁实施-后续处理等几个角度,整理机房搬迁过程中的众多环节、要点,为有此需求的企业、团队提供一个全面的参考。
准备阶段
凡事预则立,不预则废。只有做好了万全的前期准备,机房搬迁才可能顺利的实施。
1 制定搬迁方案
搬迁方案是贯穿整个数据中心搬迁从规划到最后成功整体的方案,也是搬迁活动能否顺利完成的基础保障。
搬迁方案并不一定是一份,可以是分阶段的多份方案。也不一定单由IT部门来制定,可以是多个业务部门,也包括外包团队参与下共同完成。
以保障业务连续性和数据安全为核心,合格的搬迁方案应包括以下几个方面:
(1)业务连续性和数据安全性的评估及分类处理方案。虽然业务连续性很重要,但机房搬迁必然引起业务的中断,所以应当优先保障重点业务的连续性,对无法在线迁移的业务和非重点业务要考虑下线处理方案。对于系统数据要作出详细的备份方式、备份时间规划。
此外,对于系统和业务的依赖关系、工作负载安排、网络割接实施等,也应该在这一环节充分考量。需要注意的是,新旧机房的网络拓扑、网络配置不一定是一致的,均需提前制定相应的方案。
(2)承接机房的规划方案。如果是搬迁到租赁的IDC机房中,则需要根据业务需求对机房的空间、制冷、供电、安全措施等进行全面考察,并根据实际情况对IT设备的布置进行前期规划。此外,IDC机房的地理位置也十分重要,这影响到运维工程师实现现场运维的及时性。如果是搬迁到自有机房,那么则需要对制冷、供电、网络、安全措施等进行前期的完善部署。
(3)硬件设备迁移方案。创建详细的设备清单、停机流程、搬迁顺序和搬迁后设备布局表及人员安排,对于装拆工具配置、设备运输也应当制定完善方案。相比于业务的连续性,硬件设备的迁移应有取舍,在成本可控的范围内进行简化。
(4)贯穿搬迁前后的测试方案。在搬迁前,需对系统环境和业务流程进行全面的测试。无论是线上业务的连续性,还是搬迁后软硬件的重新部署,均需设置有效的方案。搬迁后,需要对新环境进行一次完整测试,并邀请所有业务部门参与。重点是与搬迁前系统能力进行比较,特别是峰值处理能力、弹性能力等方面。
(5)应急方案。应急的关键依旧是做好前期准备。故障可能出现在硬件、系统、网络等多个环节,均需准备应急方案,有条件可以提前准备临时设备和备用系统。同时,应急系统也应该进行有效性的测试验证。
2 新机房的准备工作
在确认新机房的制冷、供电、安全保障等基础设施没有问题后,则需要面向搬迁进行前期的准备工作。
(1)确认设备布局。提前规划好机柜、网络设备、配电设备的摆放位置,规划出搬运、运维、扩展的空间以及安装流程,确保搬迁顺畅。
(2)提前做好综合布线。布线工作应尽量安排在搬迁前进行,并制作综合布线点位表。对供电、网络需提前测试,确保即接即用。
(3)新旧机房的网络互联。线上业务迁移需要稳定的网络支持,需提前测试机房间网络的速度和稳定性,有条件可以租用专线。
(4)服务器部署。对于部分在线迁移的核心业务,需要提前部署服务器。
3 备份工作
备份时间尽量靠近停机时间,有条件应提供两个独立备份,防止搬迁过程中的意外。
4 分工与沟通
数据中心由IT部门运维,但其业务承载与企业所有部门都息息相关。要完成业务的顺利迁移,必须于所有相关业务部门进行充分沟通,听取意见,并邀请相关人员进行配合。根据业务部门的反馈,IT部门需要对搬迁方案作出相应的调整和优化。在搬迁过程中,每一个部门都应该是参与者,而非被动接受。
搬迁工作需要进行预先的分工,责任到组、到人。搬迁应有统一的指挥,每组人员同时也要对流程熟记在心,并对结果负责。
搬迁实施
5 搬迁时间的确认与通知
IT部门应当给出明确的搬迁时间和时限,各业务部门应该根据搬迁时间、流程,对业务作出妥善的处理,对外业务应当做好客户的沟通工作。
仅公司内部使用的业务系统,可以考虑在周末、假期进行搬迁。有持续外部访问的业务系统,可考虑夜间搬迁。
6 业务停机
为保障业务连续性,业务应当尽量在线迁移。通过建立稳定的网络链接,将系统、应用、数据迁移到新服务器上,以减少停机带来的影响。
需停机迁移的业务,要严格按照规划执行,确保备份成功后方可按照关机步骤关机,并在确认服务器关机后断电、断网。在断电、断网前,禁止对IT硬件进行拆卸。
7 硬件拆装与运输
拆装与运输是机房搬迁中硬件损失风险大的环节,如有大量的设备需要拆装和运输,好雇请专业的IT设备运输公司进行处理。尤其是服务器的包装、堆叠,需咨询服务器厂商进行确认,以避免因振动、挤压、静电等原因造成的不必要损失。
在拆机、装车、卸车、安装等环节,需做好设备的标签标识工作,派专人对设备进行登记并核对,每一个环节都需要清点后进入下一步。
8 设备加电及测试
按照设备布局表布置好服务器、网络设备、配电设备等硬件后,连接好电缆、网线,为设备加电并确保各业务系统启动。IT运维团队及各业务部门按照规划进行系统恢复和业务上线测试,包括电力供给的稳定性、网络的稳定性、服务器状态以及数据完整性、业务的可用性等。对重要的第三方系统和应用,应提前沟通供应商,协同测试和调整。
后续工作
搬迁工作完成,各业务系统进入正常的运转对于IT团队来说只是一个新的开始。
9 新的运维体系
因为在搬迁的过程中,服务器配置、网络设置、硬件设备都会产生一定的变化,为了方便运维工作的开展,需要进行一次盘点工作,重新制定设备、布线表单,以及适应新环境的运维体系。
10 设备的利旧与回收
IT硬件设备是公司重要的资产,状态良好的旧设备可以继续上线发挥作用,部分则可以作为备用设备。
对于到达使用期限,或者性能无法满足新需求的设备,则应考虑报废与回收处理。目前市场上有非常成熟的IT设备回收体系,可以帮助企业实现废旧设备的资金变现。
在废旧设备回收过程中,企业要做好数据的安全保障工作。特别是服务器等包含硬盘及其他记录介质的产品。目前,服务器回收产业链已经比较完整,部分服务器会在翻新后重新出售,部分服务器被拆解回收时硬盘也会考虑二次利用。
而简单的删除或格式化并不能彻底抹除数据,硬盘收购者通过技术方式恢复数据的可能性也一直存在,因此必须对硬盘进行深度的反复读写才能避免数据失窃。如果对保密等级有更高的要求,硬盘则应物理销毁后再进行回收。