數(shù)據(jù)中心是一整套復(fù)雜的設(shè)施。它不僅僅包括計算機系統(tǒng)和其它與之配套的設(shè)備(例如通信和存儲系統(tǒng)),還包含冗余的數(shù)據(jù)通信連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置,所以數(shù)據(jù)中心數(shù)據(jù)中心出現(xiàn)故障在所難免。怎樣解決數(shù)據(jù)中心突發(fā)事件呢?
數(shù)據(jù)中心運維團隊需能夠在沒有任何預(yù)警的情況下,能夠迅速、有效地應(yīng)對突發(fā)狀況。對于不可預(yù)見的問題,故障、危險可導(dǎo)致人身傷害或宕機的情況,都需有應(yīng)對措施。只有做好充分準備,才可以迅速響應(yīng),大限度降低突發(fā)狀況對數(shù)據(jù)中心影響,并有效防止事故再次發(fā)生。怎樣盡大努力去降低突發(fā)事件所帶來的損失的措施主要分為3類:緊急響應(yīng)程序,緊急演習(xí)和事件管理。
做足準備是一種好的抵御方式,并有助于確保及時應(yīng)對。
準備工作從為確定高風(fēng)險故障(例如冷卻設(shè)備受損,發(fā)電機啟動失敗等)到開啟緊急操作程序(EOP),還需要制定和演練升級程序,以確保通知指揮系統(tǒng),并隨著形勢的發(fā)展調(diào)派資源。
應(yīng)定期對運維團隊成員進行情境演練,評估團隊面對突發(fā)狀況的反應(yīng)與應(yīng)激能力、個人對應(yīng)急事件響應(yīng)的狀態(tài)與效果。一旦遇到突發(fā)狀況,為降低其帶來的影響,應(yīng)在事后進行充分分析,找到發(fā)生事件根本原因,分析響應(yīng)應(yīng)急措施在處理這狀況時的效果以及待改善的地方。對重大設(shè)備事件故障分析是全部完善過程的基本組成部分,終目的在于降低故障率,并提高應(yīng)對未來發(fā)生不可預(yù)見事件的處理速度。