Skip to main content

Fujitsu

English | 日本語

China

本技术介绍参考了以下链接
English

2015年01月20日


针对磁盘多重故障的快速恢复方法
故障恢复时间比传统技术缩短了20%以上,降低了内容数据丢失的风险系数

株式会社富士通研究所(注1)(以下简称,富士通研究所)开发了以下技术。

开发背景

最近几年,在网络服务中发挥了核心作用的内容数据,以每年超过70%的速度在急剧增加。由于其在网络服务中十分重要,作为解决数据丢失的对策,虽然可以采用三重冗余拷贝的方式,但是由此导致存储容量增大而引起成本的增加也是无法忽视的。由于三重冗余拷贝需要的容量是要保护的元数据大小的3倍,所以,近年来为了节省容量,至今仍在企业基础数据保护方面发挥重要作用的RAID(注2)技术也被重新认识。该技术取代了通过对各数据进行复制而实现数据保护的方式,而是采用了将数据集合在一起进行保护的冗余数据(奇偶校验)方式。比起三重冗余拷贝,冗余数据方式不仅占用的容量大幅减少,而且可以起到保护同等数据的作用(图1)。


fig1

图1 从三重冗余拷贝技术转换为RAID技术改善容量使用率

课题

现在普遍采用的RAID5以及RAID6等RAID技术标准中,所有的奇偶校验使用的是保护全部数据的方法。当磁盘发生故障时,保护磁盘内所有数据的奇偶校验会启动。由于需要使用所有残存数据来恢复丢失的数据,因此传输庞大数据会导致恢复的时间增加,恢复时数据丢失的风险也会增大(图2)。例如,对于随机I/O性能是每秒传输15MB(兆字节),使用48个4TB(太字节)磁盘的情况,当两个磁盘同时发生故障时,需要超过10个小时的计算才能恢复。

fig2

图2 使用传统RAID技术,伴随大量数据传送的数据恢复

开发的技术

在保证了与传统RAID技术的相应的可靠性基础上,富士通研究所开发了一种故障快速恢复的方法。

本技术具有以下特点:

1. 奇偶校验保护范围多层化,可减少数据恢复处理量

将各个奇偶校验的保护范围限定于部分数据,而不是全部数据。在此基础上,为了能保护各种丢失的数据,富士通研究所开发了让各个奇偶校验的保护范围既错开又部分重叠(瓦型)的独特方式(图3)。当磁盘发生故障时,在保护丢失数据的多个奇偶校验中,通过选择数据恢复所需的奇偶校验以及最小数据量的数据,可缩短恢复时间。


fig3

图3 奇偶校验保护范围的多层化


数据与奇偶校验分别分散配置在组成存储系统的不同磁盘中。磁盘发生故障时,针对磁盘内部存储的各种数据的丢失问题,选择占用最少恢复处理量的奇偶校验进行数据恢复(图4)。


fig4

图4 磁盘发生故障时丢失数据的快速恢复


例如,我们进行了恢复双重冗长故障的对比实验。结果显示:在使用前面提到的48个4TB磁盘的构成情况下,构建如图4所示的奇偶校验保护范围,与传统RAID技术相比,该技术可将恢复时间缩短20%以上。

2.针对不同的利用情形,一种可灵活改变奇偶校验保护范围的构成

在奇偶校验保护范围按瓦型多层构成时,恢复处理时间(依赖于恢复数据时所需的最少数据处理量)、数据丢失概率(依赖于保护各个数据的奇偶校验数)、容量利用效率(依赖于数据与奇偶校验的比例)三者处于相互权衡关系。针对存储数据的重要程度不同,为了让三者达到最优状态,本技术可以灵活调整奇偶校验的保护范围。

效果

通过使用本次开发的技术,在存储呈爆发式增长的网络内容等数据时,可实现磁盘故障的快速恢复。通过此项技术,对于用来存储由于云服务及网络服务扩大而需要存储更多内容的存储器,可迅速实施故障恢复。

今后

富士通研究所将继续推进该内容恢复技术的改良,目标在2015年实现实用化。

注释

注1 株式会社富士通研究所:

社长 佐相秀幸

总公司所在地 日本神奈川县川崎市

注2 RAID:

Redundant Array of Inexpensive Disks的略称。将数据分散在多个硬磁盘中,能够同时确保性能和抗故障性的技术。