HP P2000 RAID5四塊盤離線的數據恢複成功 - 成都數據恢複-成都AG娱乐數據恢複-成都權威數據恢複公司
發布:admin瀏覽次數:883更新時間:1970-01-01 08:00:00

 

1. 故障描述
存儲:HP P2000
操作係統:VMWARE ESX
文件係統:VMFS
磁盤陣列:RAID-5
    本案例的RAID-5由12塊lT硬盤組成,其中6號盤是熱備盤,由於故障導致RAID-5磁盤陣列的兩塊盤掉線,表現為四塊硬盤亮黃燈。
    經用戶方維護人員檢測,故障硬盤應為物理故障,表現為:序列號無法讀取,在SAS擴展卡上硬盤無法識別。
2. 數據備份與修複
    故障發生後用戶方工程師與我公司聯係,經過詳細谘詢,了解到故障比較嚴重,必須把RAID-5磁盤陣列帶到我公司進行檢測,檢測RAID-5的每塊成員盤是物理故障(磁頭損壞或者盤片劃傷)還是邏輯故障。由於情況緊急,我公司工程師在接到原盤以後,立即著手準備檢測。對能識別的好盤用連接到AG娱乐數據鏡像服務器上使用WinHex做扇區級鏡像,同時對不能識別的壞盤進行檢測。
    首先將壞盤連接到外部的PC3000 FOR SAS卡上,加電後通過硬盤工作聲音判斷硬盤電機能夠起轉,但是磁頭沒有進行尋道操作,於是嚐試把硬盤PCB分離下來對HDA組件氧化部分進行清潔操作,將PCB還原後故障依舊。於是和客戶溝通使用6號熱備盤的好PCB替換到故障盤上進行嚐試性修複,再將故障盤PCB上的ROM芯片替換到6號盤的好PCB上麵後硬盤工作時起轉和磁頭尋道聲音都正常,但是在尋道結束後,有明顯的敲盤聲音,於是判斷有可能磁頭損壞。在和用戶溝通後嚐試使用6號熱備盤中的好磁頭對故障盤進行替換操作以讀取數據。
    在無塵室對故障盤進行開盤更換磁頭操作後,將故障盤連接到專業硬盤維修工作上進行檢測,發現故障盤已經不能識別,數據無法讀取。
以為用戶有兩塊故障盤,之前嚐試修複的都是其中一塊,再次和客戶溝通嚐試對另一塊故障盤進行修複操作。和先前的故障盤一樣,這塊盤的故障依舊是磁頭損壞,因為用戶的HP OEM盤價格昂貴,於是嚐試在網上購買ST原廠的相同型號硬盤進行磁頭更換。這塊硬盤的磁頭更換完成後,設備能夠正常識別硬盤,於是將故障盤所有扇區完整鏡像到一塊相同容量的備份盤中。
3.重組RAID-5步驟
3.2.判斷條帶(stripe)大小
    條帶也稱塊,它是RAID處理數據的基本單元。不同的RAID其條帶大小有所不同。RAID-5的1個條帶組中有1個校驗區,1個校驗區的大小等於1個條帶的大小,根據這一點,針對這個RAID-5案例做分析。如果對VMFS的文件係統不熟悉,可以通過比較法確定條帶大小。如某一條帶組中的校驗區跟這一條帶組中的非校驗區可能相差的很明顯,通過WinHex查看並做對比,就可以找到條帶大小。本案例判斷出一個條帶是1024個扇區。
3.3判斷RAID-5成員盤盤順序以及效驗走向。
3.4 重組RAID-5
    使用專業恢複工具按照確定的盤序組好,添加進去,如圖7所示。選擇RAID-5,Stripe size 512KB,左異步。
 
    點擊Build進行重組。組好後,由於數據從1024*8=8192個扇區開始,若專業恢複工具沒有跳轉到此扇區的功能,那麽剛組好的RAID必須和一個文件再進行一次Build重組操作。RAID的起始扇區(Start sectors)選擇8192,這個文件可以任意選擇起始扇區和大小大小(Count sectors)。
 
4.移交數據
    整個RAID-5就重建好後,由我公司商務聯係用戶方驗收數據,用戶方確定數據沒問題,簽訂完驗收合同後,完整的RAID-5數據即可移交。移交時根據用戶方要求把數據移交到用戶方帶來的新盤上。恢複完的數據保留在我公司服務器上3天,之後數據自動被係統銷毀。1. 故障描述
存儲:HP P2000
操作係統:VMWARE ESX
文件係統:VMFS
磁盤陣列:RAID-5
    本案例的RAID-5由10塊lT硬盤組成,其中6號盤是熱備盤,由於故障導致RAID-5磁盤陣列的兩塊盤掉線,表現為兩塊硬盤亮黃燈。
    經用戶方維護人員檢測,故障硬盤應為物理故障,表現為:序列號無法讀取,在SAS擴展卡上硬盤無法識別。
2. 數據備份與修複
    故障發生後用戶方工程師與我公司(北亞數據恢複中心)聯係,經過詳細谘詢,了解到故障比較嚴重,必須把RAID-5磁盤陣列帶到我公司進行檢測,檢測RAID-5的每塊成員盤是物理故障(磁頭損壞或者盤片劃傷)還是邏輯故障。由於情況緊急,我北亞工程師在接到原盤以後,立即著手準備檢測。對能識別的好盤用連接到北亞鏡像服務器上使用WinHex做扇區級鏡像,同時對不能識別的壞盤進行檢測。
    首先將壞盤連接到外部的SAS擴展卡上,加電後通過硬盤工作聲音判斷硬盤電機能夠起轉,但是磁頭沒有進行尋道操作,於是嚐試把硬盤PCB分離下來對HDA組件氧化部分進行清潔操作,將PCB還原後故障依舊。於是和客戶溝通使用6號熱備盤的好PCB替換到故障盤上進行嚐試性修複,再將故障盤PCB上的ROM芯片替換到6號盤的好PCB上麵後硬盤工作時起轉和磁頭尋道聲音都正常,但是在尋道結束後,有明顯的敲盤聲音,於是判斷有可能磁頭損壞。在和用戶溝通後嚐試使用6號熱備盤中的好磁頭對故障盤進行替換操作以讀取數據。
    在無塵室對故障盤進行開盤更換磁頭操作後,將故障盤連接到專業硬盤維修工作上進行檢測,發現故障盤已經不能識別,數據無法讀取(下圖是北亞工程師在實驗室開盤時的情景)。
以為用戶有兩塊故障盤,之前嚐試修複的都是其中一塊,再次和客戶溝通嚐試對另一塊故障盤進行修複操作。和先前的故障盤一樣,這塊盤的故障依舊是磁頭損壞,因為用戶的HP OEM盤價格昂貴,於是嚐試在網上購買ST原廠的相同型號硬盤進行磁頭更換。這塊硬盤的磁頭更換完成後,設備能夠正常識別硬盤,於是將故障盤所有扇區完整鏡像到一塊相同容量的備份盤中。
3.重組RAID-5步驟
3.1.判斷起始扇區
    所有硬盤都鏡像好後就可以重組了,用WinHex打開9塊盤(熱備盤不需要加進去重組),先把鏡像文件解析成磁盤。可以看到這9塊盤的0扇區都有“55 AA”標誌。
 
    查找結果如圖2所示,0x01C2H處表示該分區的類型,這裏顯示“05”,代表這是一個擴展分區。因此從0扇區看這是一個不正常的MBR分區結構。
 
    按圖1方式繼續往下找,分別在9號盤和8號盤找到了“55 AA”的標誌。9號盤查詢結果如圖3所示。這是一個正常的MBR分區,其0x01C6處數值代表指向的下一個扇區為GPT的頭部。
 
    8號盤查詢結果如圖4所示。其0x01C6處數值代表指向下一個扇區。但是下一個扇區很明顯不是GPT的頭部。
 
    由此可以確定9號盤是第一塊盤,8號盤可能是最後一塊盤。GPT分區所在扇區起始於172032扇區,因此初步確定LUN的起始扇區是172032扇區。
3.2.判斷條帶(stripe)大小
    條帶也稱塊,它是RAID處理數據的基本單元。不同的RAID其條帶大小有所不同。RAID-5的1個條帶組中有1個校驗區,1個校驗區的大小等於1個條帶的大小,根據這一點,針對這個RAID-5案例做分析。如果對VMFS的文件係統不熟悉,可以通過比較法確定條帶大小。如某一條帶組中的校驗區跟這一條帶組中的非校驗區可能相差的很明顯,通過WinHex查看並做對比,就可以找到條帶大小。本案例判斷出一個條帶是1024個扇區。
3.3判斷RAID-5成員盤盤序
    按照1024扇區分割,使一個記錄為一個條帶的大小,如圖5所示。並且9塊盤跳到同一記錄283123。
 
    當9塊盤都定位到同一位置時,通過對比可以判斷校驗區的走向,繼而判斷整個RAID-5的走向。之前已經判斷出9號盤是第一塊盤了,把9號盤放在第一個位置,接著就可以判斷走向了,結果如圖6所示(drive9是第4塊盤)。確定RAID-5為左走向,盤序為9,2,3,4,10,1,7,8,5。
 
    前麵內容初步確定了LUN的起始扇區是172032扇區。用WinHex跳到172032扇區,觀察各硬盤實際情況。如果172032扇區是LUN的起始扇區,那麽這個扇區所屬條帶中的5號盤應該是校驗區,但是此條帶中卻顯示8號盤是檢驗區,根據本案例RAID-5的左走向,5號盤的校驗區應該在172032-1024=171008扇區,即上一個條帶。跳轉到171008扇區,發現校驗區為5號盤。因此可以確定LUN的起始扇區為171008扇區。
 
3. 重組RAID-5
    使用專業恢複工具按照確定的盤序組好,添加進去,如圖7所示。選擇RAID-5,Stripe size 512KB,左異步。
 
    點擊Build進行重組。組好後,由於數據從1024*8=8192個扇區開始,若專業恢複工具沒有跳轉到此扇區的功能,那麽剛組好的RAID必須和一個文件再進行一次Build重組操作。RAID的起始扇區(Start sectors)選擇8192,這個文件可以任意選擇起始扇區和大小大小(Count sectors)。
 
4.移交數據
    整個RAID-5就重建好後,由我公司商務聯係用戶方驗收數據,用戶方確定數據沒問題,簽訂完驗收合同後,完整的RAID-5數據即可移交。移交時根據用戶方要求把數據移交到用戶方帶來的新盤上。恢複完的數據保留在我公司服務器上3天,之後數據自動被係統銷毀。