2017年8月16日
當(dāng),某些地區(qū)正在迎來臺(tái)風(fēng)暑熱時(shí),我司某客戶卻不得迎來更大的風(fēng)暴——他們的財(cái)務(wù)系統(tǒng)正面臨這數(shù)據(jù)丟失的風(fēng)險(xiǎn)。
該客戶的財(cái)務(wù)系統(tǒng)運(yùn)行在一臺(tái)IBM X3650M5服務(wù)器上,操作系統(tǒng)是RedHat6.5,數(shù)據(jù)庫(kù)是ORA,由于客戶設(shè)備較少、架構(gòu)簡(jiǎn)單,暫把一些服務(wù)器暫存在他的一家兄弟公司機(jī)房?jī)?nèi),設(shè)備各自管理。而恰恰就是因?yàn)榧姆旁趧e人的寄放,就差點(diǎn)釀成一場(chǎng)悲劇。
2017年8月17日
該客戶訪問該系統(tǒng)時(shí),突然訪問變慢,發(fā)現(xiàn)系統(tǒng)CPU負(fù)載和磁盤讀寫速率均過高,一度高達(dá)80%-90%。但此時(shí)客戶仍不以為然,覺得只是網(wǎng)絡(luò)延遲卡頓引起的訪問過慢。
2017年8月18日上午
一大早上班客戶訪問該系統(tǒng)時(shí),突然訪問不了,發(fā)現(xiàn)系統(tǒng)已經(jīng)宕機(jī)。X3650M5本地的4塊硬盤在啟動(dòng)自檢時(shí),4塊硬盤竟然同時(shí)亮黃色指示燈!隨后系統(tǒng)一直在循環(huán)的自檢開機(jī),無法看到RedHat經(jīng)典的紅帽子啟動(dòng)畫面。客戶有一些慌亂,如果是硬盤全部損壞,那么最糟糕的是數(shù)據(jù)的備份是放在服務(wù)器本地硬盤,數(shù)據(jù)可能全部丟失,一場(chǎng)數(shù)據(jù)的暴風(fēng)雨即將來臨。
2017年8月18日下午
客戶撥打IBM800售后服務(wù)熱線,由于服務(wù)器的保修級(jí)別是5*9服務(wù),IBM工程師要到次日才能上門。
2017年8月19日
IBM工程師上門檢測(cè)后,發(fā)現(xiàn)并非是單個(gè)硬盤故障,且面臨數(shù)據(jù)丟失的風(fēng)險(xiǎn),IBM工程師當(dāng)場(chǎng)拒絕了更換備件,并建議客戶先把操作系統(tǒng)恢復(fù)正常后才更換備件??蛻粢幌麓位帕?,此時(shí)此刻的心情,正如此時(shí)的天氣,變得異常壓抑。由于該服務(wù)器并無購(gòu)買維保服務(wù),但客戶想到以前維保商是我司,當(dāng)日,客戶撥打了公司的服務(wù)電話,尋求最后一絲的希望,接電話的是我司的400熱線值班小組,當(dāng)接到故障報(bào)修,簡(jiǎn)單詢問了客戶的具體情況后,問題直接提交技術(shù)服務(wù)部李經(jīng)理,李經(jīng)理電話里告知,如果你的硬盤全部亮黃燈,有可能是陣列信息丟失,現(xiàn)在不要做任何硬件改動(dòng)的動(dòng)作,我們會(huì)馬上安排我們最好的兩位服務(wù)器工程師前往解決。
兩小時(shí)后
隨后我司指派盧工和楊工,兩位都是擁有IBM服務(wù)器維護(hù)經(jīng)驗(yàn)5年以上的工程師,他們到達(dá)客戶現(xiàn)場(chǎng)上門診斷。經(jīng)過詳細(xì)的服務(wù)器日志查看后,發(fā)現(xiàn)以下問題:
1、4塊硬盤在啟動(dòng)時(shí),全部亮黃色指示燈。
2、進(jìn)入陣列卡管理界面查看信息,發(fā)現(xiàn)陣列信息丟失,且其中的后3塊硬盤狀態(tài)為foreigned disk unconfiged bad 狀態(tài),第一塊硬盤只是unconfiged bad
3、陣列卡日志信息,發(fā)現(xiàn)第一塊一個(gè)盤早在2016年5月份的時(shí)候,已經(jīng)報(bào)警,硬盤離線。
4、第4塊硬盤近期有報(bào)錯(cuò)。
經(jīng)分析初步判斷如下:
1、服務(wù)器起不來的原因,是因?yàn)殛嚵衼G失,且在一年以前,第一塊硬盤已經(jīng)掉線,客戶并沒有采取更換硬盤,等到第4塊硬盤出現(xiàn)故障后,Raid-5因?yàn)橹荒茉试S壞一塊一個(gè)盤,所以陣列離線。
2、如果將硬盤的unconfig bad狀態(tài)改成unconfiged good狀態(tài),可以使硬盤上線,但是由于此次操作帶有一定的風(fēng)險(xiǎn)性,建議客戶先對(duì)硬盤做備份處理。
3、分析判斷 第一塊硬盤和第4塊硬盤有故障,第2塊硬盤和第三塊硬盤狀態(tài)是正常的。故而在陣列導(dǎo)入的時(shí)候,需要選擇最晚離線的硬盤。
給客戶分析完畢后,我們提出解決方案:
1、先做數(shù)據(jù)恢復(fù)的準(zhǔn)備工作,我司負(fù)責(zé)找專業(yè)的數(shù)據(jù)恢復(fù)公司,先把4塊硬盤的原始數(shù)據(jù)備份出來,做最壞的打算。
2、利用服務(wù)器陣列技術(shù)原理:將硬盤的狀態(tài)變成unconfig good狀態(tài),并導(dǎo)入陣列。嘗試啟動(dòng)操作系統(tǒng)。
3、如果操作系統(tǒng)依然無法啟動(dòng),嘗試rescue模式進(jìn)入操作系統(tǒng),查看數(shù)據(jù)情況。
4、如若此次實(shí)施失敗,同步告知數(shù)據(jù)恢復(fù)公司,做數(shù)據(jù)恢復(fù)。
與客戶商定后,客戶采納了我們的處理方案,當(dāng)日下午,暴雨如注,我們將服務(wù)器的4塊300G SAS硬盤按照排列順序做好記錄,前往數(shù)據(jù)恢復(fù)公司進(jìn)行硬盤的數(shù)據(jù)恢復(fù)。在經(jīng)過漫長(zhǎng)7個(gè)小時(shí)的磁盤全盤鏡像后,成功把原始數(shù)據(jù)進(jìn)行備份。
我們把硬盤重新插回服務(wù)器上,更改服務(wù)器硬盤狀態(tài),導(dǎo)入陣列,均提示成功,似乎看到了曙光。但是等到啟動(dòng)系統(tǒng)的時(shí)候,意外的發(fā)現(xiàn),黑色的屏幕只有左上角一個(gè)光標(biāo)在閃爍。這是操作系統(tǒng)損壞,無法啟動(dòng)的故障。隨后,我們采用rescue的方式,進(jìn)入操作系統(tǒng)進(jìn)行數(shù)據(jù)的查看,天啊,久違的數(shù)據(jù)竟然赫然呈現(xiàn)在我們的眼前:Data文件系統(tǒng)數(shù)據(jù)都在。激動(dòng)之余,連忙讓客戶找設(shè)備拷出數(shù)據(jù)。
等到數(shù)據(jù)考完的那一刻,我們重新幫客戶重新做陣列,將原來的4塊硬盤Raid-5,改變成3塊硬盤Raid-5,同時(shí)拿出一塊硬盤做熱備硬盤,幫助客戶安裝操作系統(tǒng),部署操作系統(tǒng)的環(huán)境。同時(shí)也叮囑客戶,要定時(shí)檢查服務(wù)器,及時(shí)發(fā)現(xiàn)問題,排除問題,做到防微杜漸,憂在未萌,防患未然,未雨綢繆。自此,一場(chǎng)突如其來的數(shù)據(jù)風(fēng)暴就在暴雨中煙消云散,廣州的天空,露出了久違的藍(lán)天。