摘要
随着IT技术的不断发展,IT设备的运行环境要求越来越高,更新换代的速率也越来越快。其中作为IT系统运行的载体——数据中心,需要持续适应不断提升的运行环境要求。
由于数据中心作为一个建筑,生命周期远远大于IT设备,因此许多数据中心在投产8-10年后,就需要进行改造以适应新一代IT设备的运行环境。本文主要对投产中数据中心机房在线改造类项目的建设难点进行了研究,并针对该类项目的特点,提出在项目实施过程中的解决要点。
一、在线机房改造类项目的基本特点
1.1什么是在线机房改造
在线机房改造,指的是对已投入生产运行的机房进行改造,通常改造期间IT系统仍需要继续提供服务,或者仅能在极短的关机时间内进行。改造目标一般包括机房环境优化、机房容量扩容,机房基础环境设备更新等。
1.2在线机房改造项目的特点
工程建设,是一种将实物进行加工排列成交付物的项目,其特点是各子系统在现场物理纵横交错,由于在设计阶段各子系统分头设计,所以经常会导致现场子系统之间施工冲突,需要现场协调调整。而机房建设工程是一个综合了电气、暖通、综合布线、装饰装修、环境监控、安防、消防等子系统的复杂工程项目,子系统繁多,现场施工环境复杂,各系统之间往往牵一发而动全身,某个子系统的调整将会涉及多个系统响应调整。一般来说,对新建机房工程,项目工期较为宽松,施工空间也较为宽裕,即使发生冲突,只需协调各系统建设方进行调整改道,大多都能够解决冲突问题。
而在线机房改造项目则有其独特的特点:
1)时间短:一般在实施在线机房改造工程时,机房内服务器往往都处于运行状态,施工工期需要安排的尽可能紧凑,以改造对机房运行影响最小。而部分工程必须要进行停机改造的,也只能在极其有限的关机时间内进行。
2)勘查难:由于在线机房改造是在已建成的现有机房基础上进行施工改造的,需要保留的管线与需要更新的管线纵横交错,更有许多管线藏在隐蔽工程中,无法勘查。许多工程在动工后破开装修后却又发现由于走线受到阻碍,无法按照原有方案进行实施,重新设计方案。
3)难回退:许多改造工程需要将原有工程设备及管线拆除用以让出空间供新工程设备放置。大部分设备与管线一旦开始拆除,将无法再接回原系统使用。所以改造工程难以回退,只有用寻找其他后备方法以保证施工发生预期外的情况下,业务能够持续运行。
4)风险大:改造工程通常施工区域紧靠机房,周边布满了生产和改造的线缆设备,施工过程中若出现操作不当、野蛮施工、保护措施不充分等,都将影响到正在运行的设备,甚至导致宕机,实施风险巨大。
由于在线机房改造项目难点繁多、风险极大,任意一个环节出问题都有可能导致施工无法顺利完成,或是延期、或是影响业务开展。所以,企业在进行在线机房改造工程时,不仅要考虑施工安全,更因该从业务连续性的角度,为施工做好应急准备。
二、项目方案的规划与设计
2.1项目需求分析
在线机房改造项目通常是由机房优化或扩容的需求触发的项目,项目目标明确。但由于在投产中的机房进行改造,并非所有改造需求都具备可行性。需求分析需要从几个角度展开:
1)施工窗口是否满足:
从对服务影响的角度分,机房改造又分为三类,第一类是能够完全形成与生产环境隔离的封闭施工区的改造工程,这类改造项目对生产运行影响相对较小,关注重点主要在施工本身;第二类是在生产环境现场进行改造,无法形成封闭施工区,但施工过程无需停机切换,对于这类工程在制定工程计划安排时,应尽可能安排在业务空闲期进行;而第三类,则是切换类工程,这类工程在完工后必须安排系统切换,切换的过程机房必须停机,这类工程则必须详细评估切换时间与关机窗口是否匹配。
2)物理资源是否满足:
机房改造的物理资源包括:物理空间、运输通道、电力资源、制冷资源、弱电资源、承重等级、消防要求、安防级别等。由于机房改造具体内容有各种各样,但无论哪些改造都应该全面的评估物理资源的匹配性,这些评估应该直接深入细节,特别是新老更换类的改造,对于所有接口处,必须要详细评估。
在许多改造中,线缆长度不足都会成为改造无法顺利完成的罪魁祸首,或延长工期、或进行强行施工生拉硬拽,使得工艺不合规范,最后导致风险或事故。
3)经过改造后整体系统是否匹配:
由于机房的各子系统是整体设计的,在扩容类机房改造过程中,可能会出现新设备容量增加但配套资源却无法匹配的现象。例如对UPS设备扩容后,上级开关及线缆不匹配,不能满足设备满载运行,或对冷冻水型空调增加了UPS供电,却发现水泵和冷冻机无法增加后备电源等问题。因此,改造前必须考虑整体匹配性,并对相应周边系统一同规划,尽可能保证匹配性,否则改造效果事倍功半。
4)业务连续性预案是否满足:
没有一个项目能够保证100%的成功率,尤其是在有限的时间内要完成风险极大的机房改造类项目。机房改造类项目作为一个计划内的重大变更,必须要从业务连续性上做好相应的应急预案。当发生机房无法在如期完工或因为施工管理不慎导致设备宕机时,必须尽快启用业务连续性应急预案,以保证业务服务不受到影响。这点往往需要整个公司IT部门乃至整个公司的一同配合,往往需要高层协调。因此,启动在线机房改造工程时,必须要将可能的施工风险如实的向上级揭示,并做好充分的应急预案,这样才能保证机房改造工程对于企业业务没有影响。
2.2项目方案设计
在对项目可行性和需求进行了充分论证后,即可以开始对项目具体实施方案进行设计。对于在线机房改造项目来说,尽管改造具体的内容多种多样,但由于均可能涉及机房安全运行,故在项目方案设计时,尽可能尊崇以下原则进行设计:
1)合理切分各子系统改造界面
在机房改造类项目中,项目边界的切分对项目的成败起着较为关键的作用。由于项目现场环境复杂,在图纸上规划的工作界面极有可能因施工条件恶劣,白白延长了施工工期,甚至在施工现场出现既定方案无法继续实施,导致措手不及的情况。因此,在机房改造的项目工程中,决不能纸上谈兵,必须图纸结合现场制定改造方案,将各子系统的界面合理切分,使改造工作即能较为独立快速进行,由能恰当的与原有系统对接。
2)项目方案选材等需因地制宜
对于不同的机房,由于现场情况不一样,工期要求不一样,改造难度不一样,尽管可能改造目标相同,但最终选择的方案、使用的材料、消耗的人工等,均会产生不同。机房改造施工最忌拿以往的施工经历来生搬硬套制定新的项目方案。有些时候,为了提高施工的安全性和一次成功率,需要采用价格更为昂贵的工艺,例如铜管的风焊相对无缝钢管的电焊一次成功率就较高,但使用铜管会大大增加改造成本。
3)尽可能缩短高风险的工作工期
在改造工程中,涉及在机房内进行动火、金属切割,或新老系统接驳等工程内容,都属于风险较高的工程内容。这些工程工期越长,对生产运行风险越大,因此,应该尽可能将这些工作工期缩短,并安排在业务低峰期进行,以确保对业务生产的影响尽可能最小化。
4)平衡改造效果与施工风险
很多时候,受到场地、施工窗口、施工风险等因素的制约,改造项目是无法选择改造效果最优的方案,往往为了保证项目实施顺利,需要作出一定妥协。因此,在改造方案设计时,要尽可能平衡施工风险与改造效果,在施工风险可控的范围下,尽可能选择改造效果较好的工程方案。如一味的选择优质的改造效果,当实际施工发生风险时就难以挽回了。
2.3项目组织设计
与一般工程不同,在线机房改造工程由于可能造成企业业务影响,因此,项目在组织架构设计时,需要从工程实施、业务保障两方面考虑。
1)工程实施团队
工程实施团队主要包括了核心工程团队和工程配合团队。
核心工程团队是改造工程的主要实施团队,对整个工程的质量、工期、工艺负责,一般由总包单位及建设方项目经理担任负责人。部分涉及多家供应商的工程,则由建设方项目负责人直接负责。有些工程在建设方内部也涉及多个部门,那就需要更高级别的协调人统筹协调,以便在各团队发生冲突时牵头解决。
施工团队往往涉及多个专业团队,一般由总包统一安排各专业技术负责人。对于总包安排的各专业的负责人,需要精通技术,又能协调。由于工程项目的成败大多在细节问题上,而建设方和总包又管理范畴过大,无法及时对施工细节进行掌控,因此对工程质量的把控,主要是由各技术负责人把控。
当建设方发现某个专业团队的技术负责人技术能力不足、或者协调能力不够时,应及时加强该团队技术力量,确保施工质量。工程配合团队是周边工程配合的团队,往往是因为改造工程在施工过程中需要对各类探头临时拆除、移位,或者在施工过程中对大楼中其他使用者产生影响,因此需要所有牵扯到的工程维护团队配合。工程配合团队虽然人员数量不多,但由于有些工程界面复杂,需要协调的配合工作极多,如果没有把工程配合团队配备齐整,经常会在施工现场出现碰到无法解决,需要等待协调人员赶赴现场的情况,严重浪费了工期。工程配合团队能够对施工阻碍提前清除,极大利于缩短工期,提高施工效率。
2)业务保障团队
业务保障团队主要包括了技术保障团队和业务保障团队。
技术保障团队主要由负责主机、存储、网络、软件的成员组成,主要任务是配合工程接驳进行机房服务器关机并为施工可能造成的设备损坏做好应急处理工作。技术保障团队需要协调相应的硬件服务商,向相关维保单位通知甲方的机房改造工作,并要求相关维保单位做好调配备品配件的准备工作。
业务保障团队一般在重大在线机房改造项目中组建,主要任务是当机房改造项目无法按期完成或发生重大施工事故时,必须启用灾备机房进行业务处理,则业务保障团队负责维持则需要在技术保障团队的配合下,启用备份系统,确保业务开展。