今年上半年,北京某个比较大型的数据中心在UPS设备替换过程中,出现了机房整体断电的情况(具体是哪就不说了哈)。前两天,老宋刚刚看到公开发布的事故调查报告,今天就和大家聊聊我的感受吧。
UPS在线替换在哪个机房都是一件比较麻烦的事。这次事件中,原本由4台UPS共同带全部IT负载,每台UPS负载率均在40%左右;在替换过程中,由2台带全部负载。 从数值上看,这是没问题的,应该能带起来。
此外,为了确保外电源供电正常,由外市电供电改为柴油发电机向UPS供电,并且在之前做过柴油发电机带假负载测试。最牛×的是,还把原来接在柴油发电机组下的制冷系统给退出来了,以便于柴油发电机只对UPS系统供电,降低负载,把制冷交给外市电。
看起来之前也是做了不少工作,但是效果如何呢?
在实施过程中,先是2台UPS由于过载转了旁路,之后柴油发电机也报“失磁”而退出供电系统,最后导致整个机房都没电了。
到底为什么会这样呢?公开发布的调查报告里说了很多,老宋也说说我的想法。
UPS为什么会过载而转旁路?
调查报告中说是,两台400kVAUPS并机带710kVA,没有在80%的安全负载率下,由于UPS使用年限过长,造成了带载能力下降,所以过载了。
老宋认为这个说法还不够全面而且没有关注的最该关注的问题。我觉得最最核心的问题是这个机房负载特性是容性负载,功率因数在0.95(这个在调查报告中也明确写了)。看过老宋公众号里前两天写的《UPS输出特性与负载特性的匹配》应该知道,带容性负载UPS是要降容使用的。而在0.95功率因数条件下,400kVA UPS输出的视在功率约为307kVA(这是艾默生某老款型号UPS的数据),这样算一算两天最多也就能带620kVA的负载,而这两台UPS可以说在超载约15%的条件下还正常工作了50分钟才转旁路,够给力的了,还要啥自行车啊。
所以老宋之前写的很重要哈,要关注机房的负载特性和UPS的带载能力。
你咋就觉得柴油发电机那么靠谱呢?
在UPS转了旁路之后,现场的人员并没有回退,而是选择接着整。这点老宋真的无法理解,你咋就觉得你家的柴油发电机那么靠谱呢?在没有UPS的情况下,是外市电对IT设备供电靠谱还是柴油发电机对IT设备供电靠谱?
我认为有两个需要注意的问题。
第一,由于发电机的次瞬态电抗(Sub-transient Uscx=12~20%)通常大于电力变压器的短路阻抗(Uccx=4~6%)因此,在一定的谐波电流(THDi)含量下,内阻越大,谐波电压(THDu)也就越大。越大的谐波电压越容易导致的电压波动,或者电压降低就会越大。因此,这种波动的输入电压对于IT设备的影响可能会很大,极有可能造成IT设备的宕机。
第二,还是容性负载的问题。柴油发电机带容性负载的能力还不如老UPS呢,看看曲线就知道了。
在图中,功率因数在超前0.9至0.95之间,输出功率有个较大的跌落。在这次事件中,本来柴油发电机就已经在对容性的IT设备供电了,而出现柴油发电机组“脱磁”而退出供电的时间点是新装的UPS开机时。这更说明问题了,因为UPS处于启动延时状态,有功功率等于零,发电机组在那个时刻只为UPS的前端的滤波器提供容性电流,这就进一步加剧了这种情况,最终导致了柴油发电机组的输出中断。从而使得整个机房断电。
其实好多数据中心在做UPS替换过程中,在不得不将UPS停下来的时候,经常会选择用柴油发电机组对IT设备供电,而不用外市电。因为他们觉得外市电停电是不可控的,而柴油发电机只要油够就没事。老宋的观点恰恰相反,因为上面两个原因,柴油发电机在对IT设备直接供电时,是有很大的风险的,而且这些风险根本无法在实施前进行有效的模拟和测试,无法得到真实的环境,不可控的因素更多。而根据国家电网的统计数据,在2013年供电平均可靠性(RS1)已经达到99.985%,北京这个数据还要高,相对来说还是比柴油发电机要靠谱的。
好了,关于这次事故就说这么多吧,大家引以为戒吧,机房整体断电的事还是很可怕的。另外,关于柴油发电机带容性负载的问题,回头老宋有可能还会专门说说。
地址:厦门市集美区软件园三期B14栋6楼 | 电话:0592-5379888
传真:0592-5379880 | 邮箱:E-space@sioop.com