技术资料

[转载]服务器硬盘出现坏道导致数据丢失的数据恢复过程

2017-11-30 14:40:01 ming 14
它有一个设计合理、功能强大的内部架构,大幅度提升了性能,但某些物理故障或其他操作都可能会对卷或存储造成破坏,因此对系列存储的数据恢复技术才有了用武之地。而发生这些故障之后只能找专业的数据恢复公司做数据挽救工作。我最近处理了一起服务器因磁盘故障导致存储不可用的案例:


故障描述:

宁夏某市某局中的一台服务器,底层是6块300GB SAS硬盘组成的RAID。两块盘亮黄灯,导致RAID5崩溃,存放的是Oracle 数据库文件,在服务器系统的上层一共分了1个卷,卷大小为1.5 TB。后因磁盘故障而导致服务器不可用,且已经过保,客户便联系到我们公司。


硬件检测:

我们首先对客户的6块硬盘做了硬件检测,发现客户的2块硬盘出现坏道、SMART的错误冗余级别已经超过阀值。把4块正常的硬盘进行全盘镜像,另2块有坏道的硬盘用专业工具进行了恢复并生成镜像文件。
硬盘测试
图一

故障分析:
分析两块硬盘的掉线时间,从而得知哪块硬盘里面的数据是最新,用最新数据的硬盘进行数据恢复。


解决方案:

(对服务器的所有硬盘都进行相应的备份。之后只对镜像文件进行分析,保证用户的原介质的安全。)
首先对6块盘进行虚拟还原之前的RAID状态,通过位图信息在虚拟出来的RAID中把容量为1.5T的lun全部提取出来。
根据底层结构分析,导出用户数据,并验证数据库文件是否正常。
我们将卷里的文件都拷贝出来,交给数据库工程师,进行数据库验证和数据的导入工作,数据库文件校验正常,也很顺利的导入,之后把数据库重新备份下,并把数据库文件和备份文件一同交给用户。数据恢复成功,用户认可。