客户服务器属于HP品牌DL380系列,存储是由6块73GB SAS硬盘组成的RAID5,操作系统是WINDOWS 2003 SERVER,主要作为企业部门内部的文件服务器来应用,主机(无UPS)故障前经历过几次意外断电,重启后RAID报错,提示无法找到存储设备,进入RAID管理模块后操作死机,重启后问题依旧,用户联系到我们公司并且把设备带到我公司。
【数据恢复故障分析】
主机意外断电导致RAID模块损坏(包括RAID管理信息丢失和RAID模块硬件损坏)的情况并不少见,一般来说,RAID创建完成后,其管理模块的信息就不会再发生改变,但这部分信息毕竟属于可修改信息,意外断电很容易造成这部分信息被篡改甚至丢失,多次断电甚至有可能导致RAID卡上的元器件损坏,从而使主机失去对多块物理硬盘进行RAID管理的中间层模块。该案例中对RAID模块的操作死机现象极有可能是由RAID卡硬件损坏引起的(后经HP售后技术人员验证得到证实),此时通过正常途径已无法将获取6块硬盘中的数据,只能依靠第三方提供数据恢复服务来解决。
【数据恢复过程】
1.首先针对用户提供的6块SAS硬盘进行严格的物理检测,6块硬盘读取状态均良好;
2.分别镜像用户故障RAID组中的6块硬盘,为保证绝对的数据安全,目标存储为带有冗余功能的阵列存储;
3.镜像完成后,对所生成的6个备份文件进行RAID结构分析,依据文件系统存储规则确定6块硬盘在构建RAID5的盘序、数据块大小及校验方式,并于虚拟环境中重新构建RAID组;
4.对所构建RAID中的数据进行逻辑校验,确保重构RAID所应用的各参数正确无误后,针对用户最为关注的数据进行完全验证;
5.用户确认数据恢复结果已完全达到预期(数据恢复至故障前状态)后,将所有用户业务数据迁移至用户存储,至此数据恢复完成
【服务器存储安全建议】
1.尽量保证机房电源供应稳定,以减少电源异常对主机及存储的冲击;
2.最好为重要的服务器及存储配置UPS,可在机房意外断电的情况下保证核心业务系统能继续维持一定时间的正常工作,从而为企业寻求应急解决方案赢得宝贵的时间;
3.对于服务年限已久的服务器应定期进行安全状况检查,并对其整体运行状态进行评估以决定是否进行硬件及系统的全面升级,同时提前制定突发数据灾难的紧急处理方案,以降低数据灾难带来的业务损失。