一、面臨挑戰(zhàn)
隨著社會的發(fā)展和科技的進步,真實有效的信息已經(jīng)成為企業(yè)賴以生存的源泉,企業(yè)信息化的水平已經(jīng)成為企業(yè)的核心競爭力,但是隨著企業(yè)信息化建設(shè)的普及與規(guī)模發(fā)展, 企業(yè)所面臨的風(fēng)險和威脅也越來越大。 外在的因素、內(nèi)在的因素與更多不可欲知的災(zāi)難,時刻威脅著企業(yè)生存。 絕大多數(shù)企業(yè)都無法承擔(dān)由于計劃外系統(tǒng)中斷造成的停機而帶來的經(jīng)濟與信譽等諸多方面的損失。而如何做到企業(yè)的業(yè)務(wù)永續(xù)運行,已經(jīng)成為困擾企業(yè)經(jīng)營決策者們的頭等大事。 根據(jù)我們對1000多家企業(yè)的數(shù)據(jù)中心事故的分析,我們總結(jié)出了數(shù)據(jù)中心安全運營的五大威脅:
第一:停電
機房意外停電是我們數(shù)據(jù)中心最常見的威脅,輕則導(dǎo)致設(shè)備關(guān)機,業(yè)務(wù)不可用;重則導(dǎo)致存儲設(shè)備數(shù)據(jù)不一致,設(shè)備無法開機導(dǎo)致數(shù)據(jù)永久丟失。
第二、病毒
病毒是最常見的安全威脅,因為病毒實時在發(fā)生變化,沒有一款殺毒軟件可以實時防范所有病毒。
第三、數(shù)據(jù)庫誤刪除
經(jīng)統(tǒng)計數(shù)據(jù)中心發(fā)生的事故中人為誤操作事故的比例要遠遠高于設(shè)備故障造成的事故比例,因為人工運維管理的需求是多變的,加上人的狀態(tài)很大程度上會影響工作的質(zhì)量和效率。
第四、程序 bug
因為程序設(shè)計的時候沒有辦法測試所有實例,所有一些問題經(jīng)常是慢慢發(fā)現(xiàn),慢慢修復(fù)的。我們看微軟每年發(fā)布多少補丁就知道了我們的程序有多少漏洞, 這些漏洞隨時可能導(dǎo)致程序崩潰,導(dǎo)致業(yè)務(wù)不可用或者數(shù)據(jù)不可用。
第五、存儲宕機
存儲宕機雖然不經(jīng)常遇到,但是只要是程序就有bug,所以每年也是有幾例存儲宕機事故被報道出來的。另外一個raid5中同時壞掉2塊硬盤也會導(dǎo)致數(shù)據(jù)不可用。
二、解決方案
針對以上的數(shù)據(jù)中心安全運行需求,我們采用合適的技術(shù)手段一一解決潛在的威脅:
第一:電源風(fēng)險
我們通過UPS不間斷電源+本地雙數(shù)據(jù)中心來解決,具體設(shè)計是在本地園區(qū)的兩個相隔不遠的大樓各建一個機房, 中間通過裸纖互聯(lián),設(shè)備分別放到兩個機房,做成雙活架構(gòu),每個機房配置足夠的UPS。
第二、病毒、數(shù)據(jù)庫誤刪除
針對病毒和數(shù)據(jù)庫誤刪除這種數(shù)據(jù)邏輯故障問題,我們采用CDP數(shù)據(jù)錄像功能來解決,具體方案是通過CDP設(shè)備每隔幾十秒對生產(chǎn)存儲做一次快照, 數(shù)據(jù)出現(xiàn)誤刪除或者發(fā)現(xiàn)病毒,我們可以在幾分鐘內(nèi)將生產(chǎn)數(shù)據(jù)回退到之前正常狀態(tài)的任意時間點。
第三、程序bug
針對程序的故障,我們分別在應(yīng)用層使用負載均衡器實現(xiàn)應(yīng)用的水平擴展和高可用,任意節(jié)點程序故障或者服務(wù)器故障,應(yīng)用不受影響。 數(shù)據(jù)庫層面我們使用數(shù)據(jù)庫自帶的高可用方案比如oracle rac實現(xiàn)數(shù)據(jù)的水平擴展和高可用,防止程序bug導(dǎo)致的業(yè)務(wù)中斷。
第四、存儲宕機
針對存儲故障我們在用vplex metro實現(xiàn)存儲的虛擬化和高可用鏡像,不管任意存儲宕機,數(shù)據(jù)庫可以無感知的繼續(xù)運行。 通過以上改造最終達到無論是出現(xiàn)電源中斷、設(shè)備宕機、程序bug、人為誤操作、甚至機房出現(xiàn)意外都可以讓業(yè)務(wù)零中斷的效果!
另外我們的方案還可以根據(jù)業(yè)務(wù)的發(fā)展實現(xiàn)本地雙活數(shù)據(jù)中心到異地雙活數(shù)據(jù)中心的平滑過渡,有效的保護了前期的投資。
三、 客戶收益
1、防止機房電源故障、網(wǎng)絡(luò)帶寬出口故障等設(shè)備故障導(dǎo)致的業(yè)務(wù)不可用問題。
2、預(yù)防服務(wù)器、網(wǎng)絡(luò)、存儲設(shè)備故障導(dǎo)致的業(yè)務(wù)中斷或數(shù)據(jù)丟失問題。
3、防止運維人員誤操作導(dǎo)致的數(shù)據(jù)誤刪除、或者中病毒等原因?qū)е碌拈L時間業(yè)務(wù)中斷,實現(xiàn)分鐘級別的系統(tǒng)回退。


