《又又又斷電?從某Cloud數據中心電力故障看UPS可靠性》要點:
本文介紹了又又又斷電?從某Cloud數據中心電力故障看UPS可靠性,希望對您有用。如果有疑問,可以聯系我們。
在數據中心大談云化,眾多廠家“無云不宣”的時候,人們卻發現:理論上更加安全、更加可靠、更加便捷的Cloud DC們,卻似乎變得更加脆弱了.除了服務器宕機,斷網、斷電等事故也時有發生,連挖土機都有可能挖斷光纜.當一朵朵“云”在天上飄的時候,背后的那根“安全線”也比任何時候更加不容忽視.
2017年3月22日,青云(QingCloud)因北京2區(PEK 2)數據中心電力故障引發部分網關設備及計算節點重啟,目前故障雖然已經排除,但也造成了不小的影響.
近年來,大家頻繁聽到云數據中心因異常導致業務中斷的事情發生,在數字化的現代社會,數據中心的可靠性如果稍稍動搖,其造成的影響如同蝴蝶效應,不可避免會波及終端客戶的正常運營和影響自身聲譽.因而每一次故障的發生不僅僅需要事故方自檢排查,更需要整個行業一起反思,從中獲益.雖然官方沒有給出確切的故障原因,本文將參照青云事后發布的故障報告,大致分析故障原因,并以此為契機,給出一些思考與建議.
據青云官方稱:具體故障發生過程為,該數據中心需要對A組UPS進行定期離線維護作業所以將負載從A路UPS整體切換到B路UPS,但是3個小時之后B路電源UPS出現單臺機組報故障,隨后整組UPS過載.1分鐘后B路UPS在進行內部旁路切換時報警顯示不能進行切換,緊接著UPS就陷入異常狀態.大約36分鐘后UPS系統恢復正常狀態后將報警還原時,電源產生了瞬斷現象.將近2個小時之后為了原因調查,UPS被完全隔離.
雖然目前還沒有正式的分析報告出來,但是從報告中我們還是可以管中窺豹,從中看出一些問題.
一、傳統塔式UPS離線維護風險大.在發生故障的第一環節是離線維護引起的,研究表明有50%~60%的數據中心的停機都是由人為錯誤引起的,這與塔式UPS結構息息相關.
傳統塔式UPS是一個整體,其內部系統復雜,UPS出了故障后,問題的定位和維修是很大的工程量,并且需要專家到現場才能定位、維修,且這個過程是離線的,此時UPS系統工作在維修旁路,這就意味著,當市電中斷時,如果單機供電,負載將直接中斷.
二、傳統塔式UPS維護時間長.上文已經提到,塔式UPS的維護往往是個專業過程,維護工作量大,一般維護時間常常是數小時甚至數十小時,這就加大了業務中斷的風險.
三、青云所用的UPS本身可靠性設計令人擔憂.從報告中看 “B路電源UPS出現單臺機組報故障,隨后整組UPS過載.1分鐘后B路UPS在進行內部旁路切換時報警顯示不能進行切換,緊接著UPS就陷入異常狀態.大約36分鐘后UPS系統恢復正常狀態后將報警還原時,電源產生了瞬斷現象.”這段描述性文字可以看出,青云所用UPS在過載狀態下,主旁切換邏輯出現重大問題,本身可靠性設計堪憂.
UPS發展至今,傳統塔式UPS低可用性已經無法跟上數據中心IT設施的發展速度,要提升可用性,縮短故障維護時間,模塊化UPS是唯一方向.模塊可熱插拔是所有UPS廠家對模塊化UPS的基本要求,故障時通過熱插拔更換模塊,5分鐘即可完成在線維護,這與傳統塔式UPS動輒8小時以上的離線維護時間相比,是個巨大的提升,當然在線與離線相比,對負載的重要性也不言而喻;部分廠家甚至將靜態旁路、控制模塊等等都做了熱插拔設計,進一步提升系統可用性.
此外,傳統塔機單點故障多,單點故障,常常引起整個系統中斷,相比而言模塊化UPS關鍵節點可以通過冗余設計提升可靠性,在整個系統運行時,負載率一般會低于50%,此時多個模塊故障,仍然可以保證UPS正常帶載,直接規避了上文所說的過載問題.
最后,用戶在使用UPS,進行招標時,對于UPS可靠性的要求應該更加嚴格,嚴格的標準才能大浪淘沙,讓真正可靠的UPS脫穎而出,為更多的用戶謀福利.
從近年來的集采可以看出,模塊化UPS所占比例節節攀升,逐步成為集采主流機型,這也從側面印證了市場趨勢,從業務出發,客戶也不愿意使用維修困難的UPS,正在追求更高可用性的UPS.
UPS作為電力守護者,為各個行業的關鍵負責設備提供穩定、不間斷的電力供應.從近幾年的市場表現來看,模塊化UPS的可靠性正在逐步被行業認可.相對于傳統的高頻塔式UPS,模塊化UPS可以不斷電維護,單模塊故障不影響系統運行,高效節能等特性更符合數據中心應用.
文章來自微信公眾號:數據中心運維管理
轉載請注明本頁網址:
http://www.snjht.com/jiaocheng/4192.html