HDS USPV-VSP HP XP24000 Raid崩溃阵列损坏数据恢复方法思路分享
1、->HDS故障来源报修
HDS USPV存储上挂载的220块硬盘中,数据大部分已经迁移,由于机房突然断电,机器重启后,发现存储里面还有一个最重要27TB的ORACLE数据库还没有迁移出来,8块硬盘损坏,其中有对应的镜相盘有故障,所以raid阵列组损坏 卷无法识别加载/整市政务业务全部瘫痪,此次遇到的故障特殊,当故障盘和同位置备份盘一起坏时,HDS厂家工程师也无法处理。需要上门配合进行紧急数据恢复处理。
客户是厦门某上市公司,运维着省政务系统,上次龙岩三明地区有配合过,联系上了北京技佳瑞康科技有限公司厦门分公司的罗工上门恢复
2、->HDS存储产品背景分析
本次要恢复的是一台HDS USPV,以前接触过HDS USP VSP及HP StorageWorks XP24000XP2000机器其实都一样,只是相观上有改进一些,底层都一样,都是日立产的智能高端存储,这种机器一般不容易出故障,出故障也在同台机器上有备份,除非是故障盘和备份盘一起坏,那这种概率是非常低的,但不怕一万,就怕万一,因机器常期运转,时间久了,硬盘有达到极限寿命,经常有一断电关机后,重启时认不到故障盘和相对应的同位置的镜相备份盘,导致硬盘阵列损坏,关键数据无法使用。同时早期的硬盘有设计上的缺陷。 一般此类存储阵列都有备份,如果出一般问题,只要请HDS厂家的工程师出手在存储管理界面直接更换硬盘即可,
具体可查看:如何更换HDS USPV 硬盘文章篇
此次遇到的故障特殊,当故障盘和同位置备份盘一起坏时,HDS厂家工程师也无法处理。
3、-> HDS存储故障检测分析
这类存储故障难点一:不可以硬件漫游,不支持同型号的硬盘直接替换,HDS存储每个均需自定义后启用,故障状态下不能建新raid阵列组,故常规迁移法不适用。 难点二:这四种存储硬盘为特殊硬盘,每扇区为520字节,与512字节/扇区硬盘不一样,多8个字节的较验位,所以这种硬盘一般机器上是不认的。
此次故障是Ibm P590小型机的应用数据存储在HDS USPV上。
操作系统为AIX创建的Logical Volume Type为JFS。
USPV故障日志
由于HDS USPV智能存储上的硬盘达到了使用的极限年限,一次上电下电就造成10块硬盘损坏,由此可知上下电随时可能对硬盘造成二次破坏。
4、->故障逻辑分析报告
根据HDS USPV上的盘序分析得知:
3-7:0,1,2,3 4-7:4,5,6,7 找出对应盘位图
分析得知,数据层盘关系
及数据恢复方案
5、->修复方案简介
数据修复可以采用不同的方法达到相同的恢复目的,但不同的方法却具有不同的风险等级和不同的数据完整性保障。
本方案将综合使用以下两种方案,全面确保数据安全:
方案一和二的前提:备份8块故障硬盘的镜相,确保上下电不会对硬盘再次造成损坏。
方案一、镜相并替换这两块坏的硬盘 520to520 需要改盘刷固件,时间5-6天,在操作中,已操作完3天,再有3天操作时间。
优点:数据可恢复为故障发生前的状态;恢复速度快,成功恢复后,可以直接映射给AIX文件系统,第一时间恢复应用;数据恢复的完整性最为可靠。
缺点:由于技术难度高,此批次日立备件盘为光纤非标硬盘,520K/扇区。
已使用替换法,HDS存储不能直接认存储替换盘的话,第一次方案失败。
方案二:镜像硬盘,组虚拟阵列,在虚拟阵列中恢复数据
优点:镜像完成以后,不再使用原有硬盘,可以做多样化组合尝试;不会影响原盘数据,恢复的安全性、可逆性极强。
缺点:耗时长;数据一般情况可以完整恢复,但如果遇到硬盘损坏较多,也有可能是部分恢复。
根据现场情况,原HDS USPV因为老化原因,上下电随时会对硬盘部件受到不同程度的影响和损伤,为了防止该套设备的故障可能带给数据的威胁(例如,因设备故障而导致的阵列离线,从而串改硬盘中的阵列状态),我们也考虑数据恢复前弃用该设备,转而寻求一套功能完整、性能稳定的替用设备,考虑中,并进行稳定性测试,随时等候调遣。
故商议后,实施第二套方案:
方案二:镜像硬盘,组虚拟阵列,在虚拟阵列中恢复数据
优点:镜像完成以后,不再使用原有硬盘,可以做多样化组合尝试;不会影响原盘数据,恢复的安全性、可逆性极强。
对存储所有的数据迁移完后,对8块阵列故障成员盘进行备份并520字节/扇区 转成512字节/扇区 处理:
为解决AIX创建的Logical Volume Type为JFS文件系统问题,与数据恢复专家老师过来技术支持,同时用刚研发的IBM AIX数据恢复软件并为软件提供测试恢复环境:
实施步骤如下:8块故障盘520TO512处理转化备份,使windows下可以处理。
组出RAID后,分析LUN,导出原阵列里面的8个VG,导入到华为存储预设计的VG,加载到IBM小型机的AIX环境中,验证数据。
可视化恢复及导出过程
数据恢复结果验证
北京技佳瑞康科技有限公司厦门分公司的罗工和客户方一起努力,历时8天,数据100%恢复成功,客户方工程师对所有数据和ORACLE数据库进行现场验证,数据恢复完美验证。
总结:HDS高端存储虽然稳定,但也是要经常机房巡检,数据还是要有备份,有备无患!很多时候物理层恢复了,但是存储的状态还是不行或是硬盘状态不对,类似于我去年恢复的HP XP2400上面挂载了220多个硬盘,针对多盘的服务器,一定要思路和逻辑清晰,方案成熟后再着手去恢复处理
北京技佳瑞康科技发展有限公司成立长2012年,国家保密局涉密数据恢复资质单位,总部位于北京,在上海、深圳、厦门、南京等地设有分公司http://www.databack.com.cn ,联想集团数据恢复供应商, 2017-2019北京市政务信息安全应急保障单位,北京市诚信创建企业,中国石油IBM 渣打银行数据恢复服务商,针对服务器和高端存储,机房云数据故障等应急服务有丰富的经验。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!