CN100481019C - 预测存储设备故障的装置、系统和方法 - Google Patents

预测存储设备故障的装置、系统和方法 Download PDF

Info

Publication number
CN100481019C
CN100481019C CNB2007100042432A CN200710004243A CN100481019C CN 100481019 C CN100481019 C CN 100481019C CN B2007100042432 A CNB2007100042432 A CN B2007100042432A CN 200710004243 A CN200710004243 A CN 200710004243A CN 100481019 C CN100481019 C CN 100481019C
Authority
CN
China
Prior art keywords
memory device
module
storage device
technical description
fault threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2007100042432A
Other languages
English (en)
Other versions
CN101008910A (zh
Inventor
R·A·库博
K·A·尼尔森
D·F·曼宁巴赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Western Digital Technologies Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101008910A publication Critical patent/CN101008910A/zh
Application granted granted Critical
Publication of CN100481019C publication Critical patent/CN100481019C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3485Performance evaluation by tracing or monitoring for I/O devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting

Abstract

本发明披露了一种用于预测存储设备故障的装置、系统和方法。技术描述符模块将技术描述符与存储设备关联。故障阈值模块设置所述存储设备的预测故障阈值以响应所述技术描述符。在一个实施例中,工作负荷管理检测模块检测所述存储设备的工作负荷管理。阈值修改模块可以修改所述预测故障阈值以响应检测所述存储设备的所述工作负荷管理。性能检测模块将超过所述预测故障阈值的存储设备错误检测为存储设备预测故障。

Description

预测存储设备故障的装置、系统和方法
技术领域
本发明涉及预测存储设备故障,更具体地说,涉及设置用于预测故障的预测故障阈值以响应技术描述符。
背景技术
数据存储系统通常包括诸如硬盘驱动器、光存储驱动器、磁带驱动器、微机械设备、半导体设备之类的多个存储设备。数据存储系统可以为一个或多个主机提供数据存储。每个主机可以通过诸如网络、内部总线之类的通信介质在数据存储系统中存储数据或检索数据。数据存储系统可以在一个或多个存储设备中存储数据或检索数据。可以在数据存储系统中添加或移除存储设备来为主机提供足够的数据存储容量。
数据存储系统可以组织为冗余地存储数据。例如,数据存储系统可以在第二存储设备上维护第一存储设备的副本或从第一存储设备镜像数据。如果第一存储设备出现故障,则可以从第二存储设备访问镜像的数据。
数据存储系统还可以组织为独立磁盘冗余阵列(“RAID”)系统,这是本领域的技术人员公知的。在RAID数据存储系统中,数据可以以冗余形式跨多个存储设备存储在条中。如果多个存储设备中的一个存储设备出现故障,则数据存储系统可以从其他存储设备中恢复数据。
数据存储系统可以尝试判定存储设备是否可能出现故障,以便采取主动操作来保护数据。例如,数据存储系统可以定期测试每个存储设备。如果存储设备满足故障准则,则数据存储系统可以从该存储设备迁移数据并通知管理员应该替换所述存储设备或对其进行进一步测试。
数据存储系统通常使用高可靠性、高成本(“HRHC”)的存储设备,但是最近数据存储系统还使用高容量、低成本数据(“HCLC”)存储设备。不幸的是,HCLC存储设备可能在显示来自HRHC存储设备的不同准则集时出现故障。但是,如果当HCLC存储设备不满足HCLC存储设备的故障准则,而该HCLC存储设备却满足HRHC故障准则时,则数据存储系统仍可以识别可能的HCLC存储设备故障。因此,数据存储系统可能从HCLC存储设备迁移数据并使该HCLC存储设备离线。不幸的是,从HCLC存储设备迁移数据可能影响数据存储系统的性能,而使HCLC存储设备离线进行维护或替换增加了维护成本。
此外,可以对HCLC存储设备进行工作负荷管理以减轻对HCLC存储设备的压力。例如,可以减少HCLC存储设备的负载循环以防止HCLC存储设备过度磨损。负载循环是存储设备执行操作的时间的百分比,这是本领域的技术人员公知的。不幸的是,工作负荷管理的HCLC存储设备更有可能满足故障准则。如果数据存储系统识别到工作负荷管理的HCLC存储设备中的潜在故障,则数据存储系统可以从工作负荷管理的HCLC存储设备迁移数据并使该HCLC存储设备离线,这降低了数据存储系统性能并增加了维护成本。
通过上述讨论,显而易见的是需要一种根据存储设备的特性来预测存储设备故障的装置、系统和方法。有益地,所述装置、系统和方法将根据每个存储设备的技术来预测故障,并减少从数据存储系统错误地移除运行的存储设备的次数。
发明内容
为响应当前技术发展水平,具体地说,响应本领域中通过当前可用于预测存储设备故障的方法尚未完全解决的问题和需求,开发了本发明。因此,开发本发明以提供用于预测存储设备故障的装置、系统和方法,它们克服了本领域中许多或所有上述讨论的不足。
与多个模块一起提供了预测存储设备故障的装置,所述模块配置为在功能上执行以下步骤:将技术描述符与存储设备关联,设置所述存储设备的预测故障阈值,以及检测超过所述预测故障阈值的存储设备错误。在描述的实施例中的这些模块包括技术描述符模块、故障阈值模块以及性能检测模块。
所述技术描述符模块将技术描述符与存储设备关联。所述技术描述符可以指定所述存储设备的一个或多个名义操作特性。在一个实施例中,所述技术描述符描述了存储设备的类别,如HCLC存储设备、HRHC存储设备等。
所述故障阈值模块设置所述存储设备的预测故障阈值以响应所述技术描述符。在一个实施例中,所述预测故障阈值是指定时间间隔内指定的错误数,并且其中每个错误是指未能在指定响应时间内完成存储操作。
所述性能检测模块将超过所述预测故障阈值的存储设备错误检测为存储设备预测故障。所述存储设备错误可以是超过I/O操作的最大输入/输出(“I/O”)等待时间。因此,所述装置根据存储设备特性来预测存储设备故障,以避免数据存储系统性能降级和由于使正常运行的存储设备离线带来的维护成本。
还提供了预测存储设备故障的本发明的系统。所述系统可以包含在数据存储系统中。具体地说,在一个实施例中,所述系统包括数据存储设备和存储控制器。所述存储控制器包括技术描述符模块、故障阈值模块、工作负荷管理检测模块、阈值修改模块以及性能检测模块。此外,所述存储控制器可以包括修复模块。
所述存储设备存储数据。可以从包括HRHC存储设备和HCLC存储设备的多个存储设备类别中选择所述存储设备。所述存储设备类别可以表示一系列名义操作特性。所述存储控制器管理所述存储设备。此外,所述存储控制器可以通过诸如光纤通道连接、小型计算机系统接口(“SCSI”)之类的通信介质将数据写入所述存储设备或从所述存储设备读取数据。
所述技术描述符模块将技术描述符与存储设备关联,其中所述技术描述符指定了所述存储设备的名义操作特性。所述故障阈值模块设置所述存储设备的预测故障阈值以响应所述技术描述符。所述工作负荷管理检测模块检测所述存储设备的工作负荷管理。
所述阈值修改模块修改所述预测故障阈值以响应检测所述存储设备的所述工作负荷管理。所述性能检测模块将超过所述预测故障阈值的存储设备错误检测为存储设备预测故障。在一个实施例中,所述修复模块修复所述存储设备预测故障以响应检测到所述存储设备预测故障。所述系统根据所述存储设备的技术描述符使用所述预测故障阈值来检测所述存储设备的故障。
还提供了用于预测存储设备故障的本发明的方法。披露的实施例中的方法实际上包括执行与所描述装置和系统的操作有关的上面提出的功能的步骤。在一个实施例中,所述方法包括:将技术描述符与存储设备关联,设置所述存储设备的预测故障阈值,检测工作负荷管理,以及检测超过所述预测故障阈值的存储设备错误。所述方法还可以包括修改所述预测故障阈值。
技术描述符模块将技术描述符与存储设备关联。故障阈值模块设置所述存储设备的预测故障阈值以响应所述技术描述符。工作负荷管理检测模块可以检测所述存储设备的工作负荷管理。在一个实施例中,阈值修改模块修改所述预测故障阈值以响应检测所述存储设备的所述工作负荷管理。
性能检测模块将超过所述预测故障阈值的存储设备错误检测为存储设备预测故障。在一个实施例中,修复模块修复所述存储设备预测故障以响应检测所述存储设备预测故障。所述方法设置所述预测故障阈值以响应所述存储设备的所述技术描述符并使用所述预测故障阈值来预测所述存储设备的故障。
本说明书中对功能、优点的参考或类似语言并非暗示可以与本发明一起实现的所有功能和优点应在本发明的任何单个实施例中。相反,应当理解,引用所述功能和优点的语言指与实施例一起描述的特定功能、优点或特性包括在本发明的至少一个实施例中。因此,本说明书中对功能、优点的讨论和类似语言可以(但并不一定)指相同的实施例。
此外,本发明的所述功能、优点和特性可以以任何适当的方式组合在一个或多个实施例中。相关领域的技术人员将认识到,可以在没有特定实施例的一个或多个特定功能或优点的情况下实现本发明。在其他情况下,可以在特定实施例中认识到可能不存在于本发明的所有实施例中的其他功能和优点。
本发明的实施例设置预测故障阈值以响应与存储设备关联的技术描述符,并使用所述预测故障阈值来预测存储设备故障。此外,本发明的实施例可以修改所述预测故障阈值以响应检测所述存储设备的工作负荷管理。从以下说明和所附权利要求,本发明的这些功能和优点将变得更加显而易见,或者通过实现如下文所述的本发明,可以了解本发明的这些功能和优点。
附图说明
为了容易地理解本发明的优点,将通过参考附图中示出的特定实施例给出以上简要描述的本发明的更具体的描述。应当理解,这些附图只示出了本发明的典型实施例,并且因此不应被看作限制本发明的范围,将通过使用附图确切和详细地说明和解释本发明,这些附图是:
图1是示出根据本发明的数据处理系统的一个实施例的示意性方块图;
图2是示出本发明的预测存储故障装置的一个实施例的示意性方块图;
图3是示出本发明的存储控制器的一个实施例的示意性方块图;
图4是示出本发明的存储故障预测方法的一个实施例的示意性流程图;
图5是示出本发明的RAID系统的一个实施例的示意性方块图;
图6是示出迁移本发明的RAID系统的数据的一个实施例的示意性方块图。
具体实施方式
将本说明书中描述的多个功能单元标记为模块,以便更具体地强调它们的实现无关性。例如,模块可以被实现为包括定制VLSI电路或门阵列、诸如逻辑芯片、晶体管或其他分离组件之类的现用半导体的硬件电路。模块还可以在诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备之类的可编程硬件设备中实现。
模块还可以在软件中实现,以便由各种类型的处理器执行。例如,标识的可执行代码的模块可以包括一个或多个物理或逻辑的计算机指令块,所述块可以例如组织为对象、过程或功能。然而,标识的模块的可执行代码不需要在物理上位于一起,但是可以包括存储在不同位置的不同指令,当所述指令被逻辑地结合时,将包括所述模块并实现模块的所述目的。
实际上,可执行代码的模块可以是单个指令或多个指令,并且甚至可以分布在数个不同的代码段上、多个不同的程序中,以及跨多个存储器设备。同样,操作数据可以在模块中被标识和在此示出,并且可以包括在任何适当的形式中并组织在任何适当类型的数据结构中。操作数据可以被收集为单个数据集,或可以分布在包括不同存储设备的不同位置上,并且可以至少部分地仅作为电子信号存在于系统或网络中。
本说明书中对“一个实施例”、“实施例”或类似语言的引用指结合该实施例描述的特定功能、结构或特性被包括在本发明的至少一个实施例中。因此,本说明书中出现的短语“在一个实施例中”、“在实施例中”和类似语言可以(但是并非一定)都指相同的实施例。
参考信号承载介质可以采取任何能够生成信号、导致信号生成、或导致在数字处理装置上执行机器可读指令的程序的形式。信号承载介质可以通过传输线、光盘、数字视盘、磁带、贝努利驱动器、磁盘、穿孔卡片、闪存、集成电路,或其他数字处理装置存储器设备来实现。
此外,本发明的所述功能、结构或特性可以以任何适当的形式组合在一个或多个实施例中。在以下说明中,提供了大量特定的详细信息,如编程、软件模块、用户选择、网络事务、数据库查询、数据库结构、硬件模块、硬件电路、硬件芯片等的实例,以便彻底理解本发明的实施例。但是,本领域的技术人员将认识到,可以在没有一个或多个特定的细节的情况下实现本发明,或者可以通过其他方法、组件、材料等实现本发明。在其他情况下,未详细示出或描述公知的结构、材料或操作以避免使本发明的各方面变得模糊不清。
图1是示出根据本发明的数据处理系统100的一个实施例的示意性方块图。系统100包括一个或多个主机105、网络110、存储服务器115、存储网络120,以及数据存储系统130。存储系统130包括一个或多个存储控制器125和一个或多个存储设备145。虽然系统100示为具有四个主机105、一个网络110、一个存储服务器115、一个存储网络120、一个存储系统130、两个存储控制器125,以及四个存储设备145,但是可以使用任意数量的主机105、网络110、存储服务器115、存储网络120、数据存储系统130、存储控制器125,以及存储设备145。
存储设备145存储主机105的数据。例如,第一主机105a可以存储和检索第一存储设备145a中的数据库应用的数据。存储控制器125通过通信介质135与存储设备145通信。通信介质135可以是光纤通道连接、SCSI连接等。存储控制器125管理存储设备145。例如,第一存储控制器可以初始化第一存储设备145a,创建包括第一存储设备145a的多个部分的逻辑卷,以及通过通信介质135在第一存储设备145a中写入和读取数据。
每个存储设备145可以是硬盘驱动器、光存储设备、磁带驱动器、微机械设备,或半导体设备。例如,第一存储设备145a可以是硬盘驱动器。可以从多个存储设备类别中选择每个存储设备145。例如,硬盘驱动器可以是HRHC存储设备145和HCLC存储设备145。
数据存储系统130的管理员可以针对包括成本、可靠性、负载循环等的多个特性来选择存储设备145和/或一类存储设备145。例如,管理员可以选择数据存储系统130的HRHC存储设备145以具有更高的可靠性和更长的负载循环。备选地,管理员可以选择HCLC存储设备145来减少数据存储成本。
每个存储设备类别和/或每个存储设备可以具有一个或多个名义操作特性。例如,第一HRHC存储设备类别可以配置为每秒执行第一数量的I/O操作,而第二HCLC存储设备类别可以配置为每秒执行第二或更少数量的I/O操作。
存储控制器125可以使用名义操作特性来预测存储设备145是否会出现故障。例如,如果由第一存储设备145a执行的I/O操作的数量低于指定的阈值,则第一存储控制器125a可以预测第一存储设备145a可能出现故障。不幸的是,如果所述指定的阈值是用于HRHC存储设备类别并且第一存储设备145a是HCLC存储设备类别的成员,则第一存储控制器125a可能错误地预测第一存储设备可能出现故障。此外,由于每个存储设备145的类和/或存储设备145具有不同的名义操作特性,所以存储控制器125可以使用第一存储设备145a的名义操作特性来预测第二存储设备145b可能出现故障,尽管第一和第二存储设备145a、145b的名义操作特性可能截然不同。
在一个实施例中,存储设备145可以进入工作负荷管理的状态以减轻对存储设备145的压力。例如,第一存储设备145可以进入工作负荷管理的状态,其将I/O操作的执行次数限于每秒为指定的操作次数。进入受管理的状态可以降低负载循环并对存储设备145产生压力。
不幸的是,存储控制器125可能因为存储设备145的性能变化(如减少每秒内执行的I/O操作)而预测工作负荷管理的存储设备145可能出现故障。但是,如果存储控制器125错误地预测存储设备故障,则存储控制器125会从存储设备145迁移数据(这降低了系统性能),并且请求维护存储设备145(这增加了系统成本)。
本发明的实施例采用技术描述符指定每个存储设备145的预测故障阈值,这将在下文中进行讨论。根据技术描述符指定预测故障阈值可以减少错误的存储设备故障预测。此外,本发明的实施例可以修改预测故障阈值以响应检测存储设备145的工作负荷管理,以便进一步减少错误的存储设备故障预测。
图2是示出本发明的预测存储故障装置200的一个实施例的示意性方块图。装置200可以包含在图1的存储控制器125中。此外,装置200的描述引用了图1的元素,相同的标号指相同的元素。装置200包括技术描述符模块205、故障阈值模块210、性能检测模块215、工作负荷管理检测模块220、阈值修改模块225、修复模块230,以及通知模块235。
技术描述符模块205将技术描述符与存储设备145关联,这将在下文中进行描述。在一个实施例中,技术描述符指定存储设备类别。例如,技术描述符可以指定HRHC存储设备类别。技术描述符还可以指定存储设备的一个或多个名义操作特性。例如,技术描述符可以指定最大I/O等待时间。I/O等待时间是完成每个I/O操作所需的时间。在一个实施例中,技术描述符指定存储设备145的构造和模型。
故障阈值模块210设置存储设备145的预测故障阈值以响应技术描述符,这会在下文中进行描述。在一个实施例中,预测故障阈值是指定时间间隔内发生的指定错误数。每个错误是指未能在指定响应时间内完成存储操作。
性能检测模块215将超过预测故障阈值的存储设备错误检测为存储设备预测故障,这将在下文中进行描述。例如,如果将预测故障阈值指定为一分钟间隔内出现十(10)个错误,其中每个错误是未能在100毫秒(100ms)内完成读取和/或未能在500毫秒(500ms)内完成写入,则如果一分钟间隔内出现十一(11)个这样的错误,性能检测模块215可以检测到超过预测故障阈值的存储设备错误。
在一个实施例中,工作负荷管理检测模块220检测存储设备145的工作负荷管理,这将在下文中进行描述。工作负荷管理检测模块220可以通过指示工作负荷管理的存储设备活动特性和/或存储设备环境特性来检测存储设备145的工作负荷管理。例如,如果存储设备145配置成在周围环境温度为70摄氏度(70℃)时进入工作负荷管理的状态,则工作负荷管理检测模块220可以在存储设备的周围环境温度超过70摄氏度(70℃)时检测工作负荷管理。
在一个实施例中,阈值修改模块225修改预测故障阈值以响应检测存储设备145的工作负荷管理,这将在下文中进行描述。在一个实例中,如果预测故障阈值是一分钟间隔内出现十(10)个错误,则阈值修改模块225可以将预测故障阈值修改为一分钟间隔内出现二十(20)个错误以响应工作负荷管理检测模块220检测存储设备145的工作负荷管理。
在一个实施例中,修复模块230修复存储设备预测故障以响应检测存储设备预测故障,这将在下文中进行描述。例如,修复模块230可以从存储设备145迁移数据以修复存储设备预测故障。在一个实施例中,通知模块235传送存储设备预测故障的通知,这将在下文中进行描述。例如,通知模块235可以将预测故障错误的通知传送给管理员。装置200通过根据存储设备145的技术描述符采用预测故障阈值来减少错误的故障预测。
图3是示出本发明的存储控制器125的一个实施例的示意性方块图。在一个实施例中,存储控制器125是图1的存储控制器125并且包含图2的装置200。此外,存储控制器125的描述引用图1和2的元素,相同的标号指相同的元素。存储控制器125包括处理器模块305、存储器模块310、桥接模块315、网络接口模块320、存储接口模块325,以及外围设备接口模块330。此外,存储控制器125示为与存储服务器115、存储设备145和传感器335通信。
可以在一个或多个半导体衬底上使用半导体门来制造处理器模块305、存储器模块310、桥接模块315、网络接口模块320、存储接口模块325,以及外围设备接口模块330。每个半导体衬底可以封装在一个或多个安装在电路卡上的半导体器件中。处理器模块305、存储器模块310、桥接模块315、网络接口模块320、存储接口模块325,以及外围设备接口模块330之间的连接可以通过半导体金属层、衬底到衬底布线,或电路卡迹线(trace)或连接各半导体器件的连线。
存储器模块310存储软件指令和数据。处理器模块305执行软件指令并操纵数据,这是本领域的技术人员公知的。在一个实施例中,存储器模块310存储并且处理器模块305执行一个或多个包括图2的技术描述符模块205、故障阈值模块210、性能检测模块215、工作负荷管理检测模块220、阈值修改模块225、修复模块230,以及通知模块235的软件进程。
处理器模块305通过桥接模块315与网络接口模块320、存储接口模块325,以及外围设备接口模块330通信。存储接口模块325可以是光纤通道接口、SCSI接口等。网络接口模块320可以是以太网接口、令牌环接口等。外围设备接口模块330可以是通用串行总线(“USB”)接口、串行接口等。传感器335可以是温度传感器。
通常作为逻辑流程图提出以下的示意性流程图。同样,所示顺序和标记的步骤指示所提供方法的一个实施例。可以构想其他步骤和方法,它们在功能、逻辑或效果上与所示方法的一个或多个步骤或其各部分等效。另外,提供所使用的格式和符号以说明所述方法的逻辑步骤,并且应理解它们并非限制所述方法的范围。尽管可以在流程图中使用不同的箭头类型和线条类型,但是应理解,它们并非限制相应方法的范围。实际上,某些箭头或其他连接器可用来仅指示所述方法的逻辑流。例如,箭头可以指示所述方法的枚举步骤之间的未指定持续时间的等待或监视周期。另外,出现特定方法的顺序可以或可以不严格地依照所示的相应步骤的顺序。
图4是示出本发明的存储故障预测方法400的一个实施例的示意性流程图。方法400主要包括执行与图1-3的所述装置200、300和系统100的操作有关的上述功能的步骤。此外,方法400引用了图1-3元素,相同的标号表示相同的元素。
方法400开始并且技术描述符模块205将技术描述符与存储设备145相关联405。管理员可以将存储设备145的标识、存储设备类别和/或存储设备145的名义操作特性传送给技术描述符模块205,例如,通过在与存储控制器125通信的主机105上执行的维护接口图形用户界面(“GUI”)。备选地,存储设备145可以在存储设备145与数据存储系统130和/或存储控制器125通信时将存储设备145的标识传送给技术描述符模块205。在特定实施例中,技术描述符模块205查询存储设备145以标识存储设备145。
在一个实施例中,技术描述符模块205接收存储设备145的标识、存储设备类别和/或存储设备145的名义操作特性。技术描述符模块205可以将技术描述符和存储设备145关联405以响应所述标识。
在一个实施例中,技术描述符标识存储设备145。例如,技术描述符可以标识存储设备145的构造和模型。在备选实施例中,技术描述符描述存储设备类别。例如,技术描述符可以将存储设备145标识为HCLC存储设备类别。
在一个实施例中,技术描述符标识存储设备145的一个或多个名义操作特性。例如,技术描述符可以标识存储设备145支持的负载循环,如百分之五十(50%)的负载循环。在备选实例中,技术描述符可以标识存储设备145支持的I/O操作执行的最小数量。
技术描述符模块205可以维护技术表,所述技术表列出了存储设备145的一个或多个构造和模型、一个或多个存储设备类别和/或一个或多个名义操作特性。每个技术表表项可以具有相应的技术描述符。在一个实例中,HRHC存储设备类别可以具有相应的HRHC技术描述符。技术描述符模块205可以在技术表中定位相应的存储设备标识,并将存储设备145的标识与相应的技术描述符关联。例如,技术描述符模块205可以将HRHC存储设备类别与HRHC技术描述符关联。
故障阈值模块210设置410存储设备145的预测故障阈值以响应技术描述符。在一个实施例中,故障阈值模块210维护阈值表,所述阈值表包括一个或多个技术描述符值和每个技术描述符值的一个或多个相应预测故障阈值。例如,阈值表可以将具有值“HCLC存储设备”的第一技术描述符与具有一分钟间隔内出现十(10)个错误的第一预测故障阈值以及具有百分之六十(60%)负载循环的第二预测故障阈值相关联。故障阈值模块210可以根据性能检测模块215所采用的故障预测方法,将技术描述符的预测故障阈值设置为十(10)个错误的第一预测故障阈值和/或百分之六十(60%)负载循环的第二预测故障阈值。例如,如果性能检测模块215检测出存储错误为低于最小负载循环值的负载循环,则故障阈值模块210可以将预测故障阈值设置为百分之六十(60%)负载循环的第二预测故障阈值。
在一个实施例中,阈值表可以包括每个技术描述符值的一个或多个相应的预测故障阈值和一个或多个相应工作负荷管理的预测故障阈值。例如,具有值“HCLC存储设备”的第一技术描述符可以具有每分钟出现十(10)个错误的相应预测故障阈值和每分钟出现二十(20)个错误的工作负荷管理的预测故障阈值。
在一个实施例中,工作负荷管理检测模块220检测415存储设备145的工作负荷管理。在一个实施例中,工作负荷管理检测模块220查询存储设备145以检测工作负荷管理。例如,在存储控制器125上执行的工作负荷管理检测模块220可以查询存储设备145的工作负荷管理。存储设备145可以响应以存储设备145的工作负荷管理状态。
在一个实施例中,工作负荷管理检测模块220使用存储设备145的活动特性来检测415工作负荷管理。例如,如果存储设备的负载循环低于百分之二十五(25%),则工作负荷管理检测模块220可以判定存储设备145处于工作负荷管理的状态。备选地,工作负荷管理检测模块220可以使用环境特性来检测415工作负荷管理。例如,如果存储设备145的周围环境温度高于60摄氏度(60℃),则工作负荷管理检测模块220可以判定存储设备145处于工作负荷管理的状态。
如果工作负荷管理检测模块220检测到415工作负荷管理,则阈值修改模块225可以修改420预测故障阈值以响应检测存储设备145的工作负荷管理。阈值修改模块225可以通过用常数乘以预测故障阈值来修改420预测故障阈值。例如,如果预测故障阈值为每分钟八(8)个错误,并且工作负荷管理检测模块220检测415到存储设备145的工作负荷管理,则阈值修改模块225可以将预测故障阈值与常数1.5相乘以得出每分钟十二(12)个错误的修改后的预测故障阈值。
备选地,阈值修改模块225可以通过从阈值表中选择与技术描述符对应的工作负荷管理的预测故障阈值来修改420预测故障阈值。例如,如果对于所述技术描述符,预测故障阈值为每分钟八(8)个错误,工作负荷管理的预测故障阈值为每分钟十三(13)个错误,并且工作负荷管理检测模块220检测到415存储设备145的工作负荷管理,则阈值修改模块225可以将预测故障阈值修改为每分钟十三(13)个错误。
如果工作负荷管理检测模块220未检测到415工作负荷管理,则性能检测模块215检测425超过预测故障阈值的存储设备错误作为存储设备预测故障。在一个实施例中,性能检测模块215在错误日志中记录存储设备错误。性能检测模块215可以定期扫描错误日志以得出超过预测故障阈值的错误数。
备选地,性能检测模块215可以初始化存储设备145的计数器,为每个存储设备错误递增计数器,以及在每个指定时间间隔之后将计数器递减指定的数目。如果计数器超过预测故障阈值,则性能检测模块215可以检测415超过预测故障阈值的存储设备错误。
在一个实施例中,性能检测模块215查询存储设备145以检测425超过预测故障阈值的存储设备错误。例如,性能检测模块215可以查询存储设备145以查看存储设备145的负载循环,并且如果存储设备145的负载循环小于由预测故障阈值指定的负载循环,则检测到超过预测故障阈值的存储设备错误。
如果性能检测模块215未检测到425超过预测故障阈值的存储设备错误,则工作负荷管理检测模块220检测425存储设备145的工作负荷管理。如果性能检测模块215检测到425超过预测故障阈值的存储设备错误,则修复模块230可以修复430存储设备预测故障以响应检测存储设备预测故障。
在一个实施例中,修复模块230从存储设备145迁移数据以修复430存储设备预测故障。此外,修复模块230可以使存储设备145离线以修复430存储设备预测故障。例如,如果性能检测模块215检测出第一存储设备145a的存储设备预测故障,则修复模块230可以将数据从第一存储设备145a复制到第二存储设备145b并使第一存储设备145a离线。在特定实施例中,如果第二存储设备145b是第一存储设备145a的镜像,并且性能检测模块215检测出425第一存储设备145a的存储设备预测故障,则修复模块230可以指示使用第二存储设备145b访问数据。
在一个实施例中,通知模块235传送435存储设备预测故障的通知并且方法400终止。例如,通知模块235可以将错误消息传送到435计算机工作站,以便管理员可以接收通知。备选地,通知模块235可以将通知传送到435日志(如系统日志)。方法400设置410预测故障阈值以响应存储设备145的技术描述符并使用该预测故障阈值来预测存储设备145的故障。
图5是示出本发明的RAID系统500的一个实施例的示意性方块图。系统500可以通过图1的一个或多个存储设备145来实现。此外,系统500引用图1-4的元素,相同的标号表示相同的元素。虽然为了简单示出了四个存储设备145,但是可以使用任意数量的存储设备145。
在一个实施例中,存储设备145是硬盘驱动器。每个存储设备145将数据存储为多个条510、520、530、540。来自每个存储设备145的条510、520、530、540可以形成条组。例如,每个存储设备的第一条510a、520a、530a、540a可以形成第一条组。
如图所示,第一、第二和第三存储设备145a、145b、145c的第一条510a、520a、530a存储数据,而第四存储设备145d的第一条540a存储冗余数据。如果第一、第二和第三存储设备145a、145b、145c之一出现故障,则可以使用剩余存储设备145的数据和第四存储设备145d的冗余数据来恢复出现故障的存储设备145的数据。
图6是示出迁移本发明的RAID系统600的数据的一个实施例的示意性方块图。系统600包括图5的存储设备145。此外,系统600引用图1-4的元素,相同的标号表示相同的元素。
性能检测模块215检测425超过预测故障阈值的第二存储设备145b的存储设备错误为存储设备预测故障。修复模块230可以将第二存储设备145b的条520a-d的数据迁移到第五存储设备145e。第二存储设备145b的第一、第二和第三条520a-c示为迁移到第五存储设备145e。
本发明的实施例设置410预测故障阈值以响应与存储设备145关联的技术描述符,并使用所述预测故障阈值来检测425潜在的存储设备故障。此外,本发明的实施例可以修改预测故障阈值以响应检测存储设备145的工作负荷管理。
本发明可以被包含在其他特定形式中而不偏离本发明的精神或基本特性。所描述的实施例在所有方面都应被看作只是示例性的并且并非进行限制。因此,本发明的范围由所附权利要求而不是由上面的说明来指示。所有在权利要求的等价含义和范围内的更改都包含在其范围之内。

Claims (14)

1.一种预测存储设备故障的装置,所述装置包括:
技术描述符模块,配置为将技术描述符与存储设备关联,其中所述技术描述符指定了所述存储设备的名义操作特性;
故障阈值模块,配置为设置所述存储设备的预测故障阈值以响应所述技术描述符;
工作负荷管理检测模块,配置为检测所述存储设备的工作负荷管理以响应存储设备负载循环降低和存储设备环境特性超过阈值;
阈值修改模块,配置为修改所述预测故障阈值以响应检测到所述存储设备的工作负荷管理;以及
性能检测模块,配置为将超过所述预测故障阈值的存储设备错误检测为存储设备预测故障。
2.根据权利要求1的装置,还包括配置为修复所述存储设备预测故障以响应检测所述存储设备预测故障的修复模块。
3.根据权利要求2的装置,其中所述修复模块还配置为从镜像存储设备访问数据以修复所述存储设备预测故障。
4.根据权利要求1的装置,还包括配置为传送所述存储设备预测故障的通知的通知模块。
5.一种预测存储设备故障的方法,所述方法包括:
将技术描述符与存储设备关联,其中所述技术描述符指定了所述存储设备的名义操作特性;
设置所述存储设备的预测故障阈值以响应所述技术描述符;
检测所述存储设备的工作负荷管理以响应存储设备负载循环降低和存储设备环境特性超过阈值;
修改所述预测故障阈值以响应检测到所述存储设备的工作负荷管理;以及
将超过所述预测故障阈值的存储设备错误检测为存储设备预测故障。
6.根据权利要求5的方法,其中通过查询所述存储设备来检测所述存储设备的所述工作负荷管理。
7.根据权利要求5的方法,其中所述预测故障阈值配置为指定时间间隔内的指定错误数,并且其中每个错误是未能在指定响应时间内完成存储操作。
8.根据权利要求5的方法,其中还包括修复所述存储设备预测故障以响应检测所述存储设备预测故障的操作。
9.根据权利要求8的方法,其中还包括从所述存储设备迁移数据以修复所述存储设备预测故障的操作。
10.根据权利要求8的方法,其中还包括从镜像存储设备访问数据以修复所述存储设备预测故障的操作。
11.根据权利要求5的方法,其中还包括传送所述存储设备预测故障的通知的操作。
12.一种预测存储设备故障的系统,所述系统包括:
存储设备,配置为存储数据;
存储控制器,配置为管理所述存储设备并且包括:
技术描述符模块,配置为将技术描述符与存储设备关联,其中所述技术描述符指定了所述存储设备的名义操作特性;
故障阈值模块,配置为设置所述存储设备的预测故障阈值以响应所述技术描述符;
工作负荷管理检测模块,配置为检测所述存储设备的工作负荷管理以响应存储设备负载循环降低和存储设备环境特性超过阈值;
阈值修改模块,配置为修改所述预测故障阈值以响应检测所述存储设备的所述工作负荷管理;以及
性能检测模块,配置为将超过所述预测故障阈值的存储设备错误检测为存储设备预测故障。
13.根据权利要求12的系统,其中所述存储控制器还包括配置为修复所述存储设备预测故障以响应检测所述存储设备预测故障的修复模块。
14.根据权利要求12的系统,其中所述预测故障阈值配置为指定时间间隔内的指定错误数,并且其中每个错误是未能在指定响应时间内完成存储操作。
CNB2007100042432A 2006-01-23 2007-01-18 预测存储设备故障的装置、系统和方法 Expired - Fee Related CN100481019C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/337,391 2006-01-23
US11/337,391 US7496796B2 (en) 2006-01-23 2006-01-23 Apparatus, system, and method for predicting storage device failure

Publications (2)

Publication Number Publication Date
CN101008910A CN101008910A (zh) 2007-08-01
CN100481019C true CN100481019C (zh) 2009-04-22

Family

ID=38287039

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100042432A Expired - Fee Related CN100481019C (zh) 2006-01-23 2007-01-18 预测存储设备故障的装置、系统和方法

Country Status (3)

Country Link
US (1) US7496796B2 (zh)
JP (1) JP5160085B2 (zh)
CN (1) CN100481019C (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080117751A1 (en) * 2006-11-22 2008-05-22 Read Christopher J Jukebox disc deterioration testing
US7917810B2 (en) * 2007-10-17 2011-03-29 Datadirect Networks, Inc. Method for detecting problematic disk drives and disk channels in a RAID memory system based on command processing latency
US8185784B2 (en) * 2008-04-28 2012-05-22 Lsi Corporation Drive health monitoring with provisions for drive probation state and drive copy rebuild
WO2009144780A1 (ja) * 2008-05-27 2009-12-03 富士通株式会社 システム運用管理支援プログラム,方法及び装置
US8090997B2 (en) * 2008-06-20 2012-01-03 International Business Machines Corporation Run-time fault resolution from development-time fault and fault resolution path identification
US20110035248A1 (en) * 2009-08-07 2011-02-10 Loic Juillard Distributed Service Platform Computing with a Guaranteed Quality of Service
CN102147708B (zh) * 2010-02-10 2012-12-12 华为数字技术(成都)有限公司 一种磁盘检测方法及装置
US10447767B2 (en) * 2010-04-26 2019-10-15 Pure Storage, Inc. Resolving a performance issue within a dispersed storage network
US8938552B2 (en) * 2010-08-02 2015-01-20 Cleversafe, Inc. Resolving a protocol issue within a dispersed storage network
US8762793B2 (en) 2010-08-26 2014-06-24 Cleversafe, Inc. Migrating encoded data slices from a re-provisioned memory device of a dispersed storage network memory
US11614893B2 (en) 2010-09-15 2023-03-28 Pure Storage, Inc. Optimizing storage device access based on latency
US8589655B2 (en) * 2010-09-15 2013-11-19 Pure Storage, Inc. Scheduling of I/O in an SSD environment
JP5126393B2 (ja) 2011-06-29 2013-01-23 日本精工株式会社 車載電子制御装置
CN102521058A (zh) * 2011-12-01 2012-06-27 北京威视数据系统有限公司 Raid组磁盘数据预迁移方法
US9792192B1 (en) * 2012-03-29 2017-10-17 Amazon Technologies, Inc. Client-side, variable drive health determination
US8719320B1 (en) 2012-03-29 2014-05-06 Amazon Technologies, Inc. Server-side, variable drive health determination
US9037921B1 (en) * 2012-03-29 2015-05-19 Amazon Technologies, Inc. Variable drive health determination and data placement
JP6041546B2 (ja) * 2012-06-08 2016-12-07 キヤノン株式会社 情報処理装置及びその制御方法、並びにプログラム
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
US8984333B2 (en) * 2013-01-11 2015-03-17 International Business Machines Corporation Automatic computer storage medium diagnostics
US9053747B1 (en) 2013-01-29 2015-06-09 Western Digitial Technologies, Inc. Disk drive calibrating failure threshold based on noise power effect on failure detection metric
CN104346246B (zh) * 2013-08-05 2017-12-15 华为技术有限公司 故障预测方法和装置
US9626432B2 (en) * 2013-09-09 2017-04-18 International Business Machines Corporation Defect record classification
CN104731664A (zh) * 2013-12-23 2015-06-24 伊姆西公司 用于故障处理的方法和装置
US9036283B1 (en) 2014-01-22 2015-05-19 Western Digital Technologies, Inc. Data storage device with selective write to a first storage media or a second storage media
US9263088B2 (en) 2014-03-21 2016-02-16 Western Digital Technologies, Inc. Data management for a data storage device using a last resort zone
JP6252285B2 (ja) 2014-03-24 2017-12-27 富士通株式会社 ストレージ制御装置、制御方法、及びプログラム
CN104050071B (zh) * 2014-06-30 2017-02-08 苏州科达科技股份有限公司 存储设备失效预警方法及系统
US9747042B2 (en) 2015-06-30 2017-08-29 International Business Machines Corporation Statistic-based isolation of lethargic drives
US10599352B2 (en) 2015-08-14 2020-03-24 Samsung Electronics Co., Ltd. Online flash resource allocation manager based on a TCO model
US10402254B2 (en) * 2015-11-11 2019-09-03 Seagate Technology Llc Storage drive monitoring
US20170278007A1 (en) * 2016-03-23 2017-09-28 Nec Laboratories America, Inc. Early Warning Prediction System
WO2017165284A1 (en) * 2016-03-25 2017-09-28 Cummins Inc. Systems and methods of adjusting operating parameters of a vehicle based on vehicle duty cycles
US10771369B2 (en) * 2017-03-20 2020-09-08 International Business Machines Corporation Analyzing performance and capacity of a complex storage environment for predicting expected incident of resource exhaustion on a data path of interest by analyzing maximum values of resource usage over time
US11269715B2 (en) * 2018-05-05 2022-03-08 Dell Products L.P. Systems and methods for adaptive proactive failure analysis for memories
US10896114B2 (en) 2018-05-23 2021-01-19 Seagate Technology Llc Machine learning error prediction in storage arrays
US11869586B2 (en) * 2018-07-11 2024-01-09 Pure Storage, Inc. Increased data protection by recovering data from partially-failed solid-state devices
KR20200015999A (ko) * 2018-08-06 2020-02-14 에스케이하이닉스 주식회사 예측 오류 정정 장치, 이의 동작 방법 및 이를 이용하는 메모리 시스템
US10652208B2 (en) 2018-10-03 2020-05-12 Axonius Solutions Ltd. System and method for managing network connected devices
US11209808B2 (en) 2019-05-21 2021-12-28 At&T Intellectual Property I, L.P. Systems and method for management and allocation of network assets
US20210342241A1 (en) * 2020-04-29 2021-11-04 Advanced Micro Devices, Inc. Method and apparatus for in-memory failure prediction
US11301312B1 (en) * 2021-01-06 2022-04-12 Vmware, Inc. Error logging during system boot and shutdown

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04241335A (ja) * 1991-01-14 1992-08-28 Fuji Photo Film Co Ltd メモリ・カード内蔵電池電圧低下警告機能付ディジタル電子スチル・カメラ
JP2711207B2 (ja) 1992-05-19 1998-02-10 インターナショナル・ビジネス・マシーンズ・コーポレイション クリアランス及び滑りの測定が可能でヘッド衝突の警告をするディスク・ファイル記憶装置及びクリアランス測定方法
US5828583A (en) * 1992-08-21 1998-10-27 Compaq Computer Corporation Drive failure prediction techniques for disk drives
WO1996020549A1 (en) 1994-12-23 1996-07-04 British Telecommunications Public Limited Company Fault monitoring
US5717850A (en) 1996-03-12 1998-02-10 International Business Machines Corporation Efficient system for predicting and processing storage subsystem failure
JPH11213576A (ja) * 1998-01-21 1999-08-06 Ricoh Co Ltd 再記録可能ディスク記録再生装置
JPH11345095A (ja) * 1998-06-02 1999-12-14 Toshiba Corp ディスクアレイ装置およびその制御方法
US6415189B1 (en) * 1999-07-23 2002-07-02 International Business Machines Corporation Method and system for predicting disk drive failures
JP2001210027A (ja) * 2000-01-25 2001-08-03 Oki Electric Ind Co Ltd ハードディスク装置
US7043504B1 (en) 2000-04-10 2006-05-09 International Business Machines Corporation System and method for parallel primary and secondary backup reading in recovery of multiple shared database data sets
JP2001093106A (ja) * 2000-08-22 2001-04-06 Hitachi Ltd 磁気記録再生装置
US6922801B2 (en) * 2001-06-01 2005-07-26 International Business Machines Corporation Storage media scanner apparatus and method providing media predictive failure analysis and proactive media surface defect management
US7120832B2 (en) 2001-09-27 2006-10-10 Hewlett-Packard Development Company, L.P. Storage device performance monitor
JP2003168259A (ja) * 2001-11-30 2003-06-13 Sony Corp 車載情報処理機器
US6771440B2 (en) 2001-12-18 2004-08-03 International Business Machines Corporation Adaptive event-based predictive failure analysis measurements in a hard disk drive
US6948102B2 (en) 2002-04-29 2005-09-20 International Business Machines Corporation Predictive failure analysis for storage networks
US7631067B2 (en) 2002-06-20 2009-12-08 International Business Machines Corporation Server initiated predictive failure analysis for disk drives
US6982842B2 (en) 2002-09-16 2006-01-03 Seagate Technology Llc Predictive disc drive failure methodology
US20040215912A1 (en) 2003-04-24 2004-10-28 George Vergis Method and apparatus to establish, report and adjust system memory usage
JP2005004869A (ja) * 2003-06-11 2005-01-06 Adtex:Kk 記録装置、記録データ管理方法、及びプログラム
JP2005088779A (ja) * 2003-09-18 2005-04-07 Xanavi Informatics Corp 車載情報端末
JP2005258633A (ja) * 2004-03-10 2005-09-22 Hitachi Ltd ディスクアレイシステム及びハードディスクドライブの障害予測方法

Also Published As

Publication number Publication date
JP2007200301A (ja) 2007-08-09
JP5160085B2 (ja) 2013-03-13
CN101008910A (zh) 2007-08-01
US7496796B2 (en) 2009-02-24
US20070174720A1 (en) 2007-07-26

Similar Documents

Publication Publication Date Title
CN100481019C (zh) 预测存储设备故障的装置、系统和方法
CN108647136B (zh) 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN101154410B (zh) 在自动数据存储库子系统中的方法和库控制器
US7581137B2 (en) Storage apparatus and storage apparatus power supply failure management method
CN102591591B (zh) 磁盘检测系统、磁盘检测方法以及网络存储系统
CN100504795C (zh) 一种计算机raid阵列预警系统及方法
US7487408B2 (en) Deferring error reporting for a storage device to align with staffing levels at a service center
US10268553B2 (en) Adaptive failure prediction modeling for detection of data storage device failures
CN100363907C (zh) 用于识别局部损坏存储器的自测试方法和装置
GB2373607A (en) Fault location indicating in a computer system
CN1466760A (zh) 磁盘驱动器的关键事件记录
US20100157766A1 (en) Predicting cartridge failure from cartridge memory data
Hu et al. A disk failure prediction method based on LSTM network due to its individual specificity
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN111400121A (zh) 一种服务器硬盘slot定位与维护方法
CN103136075A (zh) 磁盘系统、数据保存装置以及磁盘设备
Huang et al. Characterizing disk health degradation and proactively protecting against disk failures for reliable storage systems
US7546488B2 (en) Event logging and analysis in a software system
US7137039B2 (en) Device drivers configured to monitor device status
US7546489B2 (en) Real time event logging and analysis in a software system
CN1979444A (zh) 保证伺服程序不间断运行的系统及其方法
CN106534262A (zh) 一种网络信息系统故障的切换方法
CN102467438A (zh) 利用基板管理控制器取得储存装置故障信号的方法
CN101741600A (zh) 服务器系统、与其记录装置与管理方法
CN112306815B (zh) Ceph中OSD侧主从间IO信息监控方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161111

Address after: Amsterdam

Patentee after: HGST Holland L. P.

Address before: American New York

Patentee before: International Business Machines Corp.

TR01 Transfer of patent right

Effective date of registration: 20181127

Address after: American California

Patentee after: Western Digital Technologies, Inc.

Address before: Amsterdam

Patentee before: HGST Dutch company

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090422

Termination date: 20210118

CF01 Termination of patent right due to non-payment of annual fee