Dell EMC OpenManage Server Administrator

事件类型定义和组件运行状况

Server Administrator 使用事件类型对影响系统关键组件的事件进行分类。“正常”、“警告”和“严重”是用于显示组件状态的三个最常见的事件类型。

此帮助模块定义了事件类型、状态和严重性的术语。如果您想详细了解 Server Administrator 用于分类事件和标识组件运行状况的其他术语,请阅读此帮助模块。

事件类型和相应的严重性

Server Administrator 无论是报告组件运行状况还是对事件进行分类,下面都是可分辨的事件属性:被监测的组件或冗余,以及组件正在经历的事件的类型、状态和严重性。

组件或冗余

Server Administrator 根据类型、严重性和状态对组件和某些组件的冗余进行分类。

组件

系统中的所有组件在某些方面都很重要。系统管理应用程序(例如 Server Administrator)会挑出一些组件进行特别关注。运行状况良好的系统特别依赖于稳定的电源和合适的电压,以确保系统组件的正常运行。电源通过系统的交流电 (AC) 开关进入系统的电源设备。系统的组件还需要一个正常的机箱内部温度范围。运行程序和执行数据计算都需要工作正常的随机存取存储器。这些要求的结果是,电源开关、电源设备、风扇和系统内存成为 Server Administrator 监测的一些最重要的组件。

冗余

Server administrator 监测冗余组件的运行状况并报告系统的冗余状态。

有些系统组件安装在系统中并为其规划冗余,这要取决于该系统相对于企业实体或组织任务的重要性。对组织任务至关重要的系统最有可能具有冗余组件。冗余组件的设计用途是在伴生组件出现故障时接管任务。冗余有助于防止系统因关机或组件损坏而停机。

完全冗余 整个系统完全冗余意味着所有设备都在正常限制范围内工作。如果系统需要四个风扇实现完全冗余,并且四个风扇都在工作,则该系统具有风扇组件的完全冗余。如果两个主风扇中的任何一个出现故障,则每个风扇都有一个备份。除正常的预防性维护外,完全冗余不需要任何操作。
降级冗余 降级冗余表示完全冗余所需的一些组件不起作用。系统在运行,但正常运行的组件数量不足在其他组件发生故障时接管故障组件的任务。例如,如果完全冗余需要四个风扇,只有三个风扇工作正常就代表降级冗余。在发生故障时,两个主要风扇中只有一个风扇有备份。
无冗余 丢失冗余表示系统只有最小数量的组件用于预防系统故障。无冗余组件在工作。如果完全冗余需要四个风扇但只有两个风扇在工作,则在发生故障时,两个主要风扇均无备份。

类型

事件按类型分类。示例事件类型为“正常”、“警告”和“严重”。

正常 正常事件表示组件正在一个能使其在系统中正常发挥功能的值范围内运行。另一个常用于描述组件正常状态的术语是“良好”。当组件为“良好”或事件为“正常”时,系统操作员不必采取任何纠正措施。
警告 当受管组件未处于最佳运行状态但仍能工作时,就会发生警告事件。警报事件为系统操作员提供了一些前置时间。警告事件的合适操作通常是进一步调查并计划组件维护。警告还会提醒系统操作员增加对组件的关注,直到该组件恢复正常。高级用户和管理员可以定义警告事件的最小值和最大值。定义警告范围的权限使高级用户和管理员在一个可以工作的组件开始出现性能降级迹象时能够拥有他们需要的反应时间。
严重 严重事件表示组件的运行超出了正常工作范围或完全不工作。组件完全不工作的情况通常称为不可恢复。系统制造商为组件定义了临界范围,因为制造商最了解组件及其正常工作所需的工程原理。与“警告”相比,“严重”传达的信息更紧急,系统操作员将此类组件性能降级视为更严重的情况。适合严重或正在发生故障的组件的操作可能包括立即关闭系统或尽快安排组件更换。

状态

组件或系统属性的状态为“正常运行”、“降级”或“无法运行”。

正常运行 正常运行温度表示机箱内的温度探测器读取的温度在正常的运行范围内。
降级 降级温度表示机箱内的温度探测器读取的温度在警告所需的最低和最高操作温度定义的警告范围内。机箱中的温度低于正常的最低或高于正常的最高温度。
无法运行 无法运行的组件或组件属性表示组件在故障或无法恢复的范围内工作。使用温度示例,如果系统仍在工作,则在温度超过或低于正常范围足够多时,可能会导致系统过热关机,或者该温度会损坏或破坏系统组件。

严重性

组件的每个事件类型和状态都是基于其严重性评定的。事件的严重性包括通知、次要、主要和严重。

通知 正常事件或组件状态是正常运行状态,与正常事件关联的严重性是“通知”。Server Administrator 对正常事件采取的唯一措施是“通知”。Server Administrator 会通知系统操作员组件正常。
次要 警告事件可能是次要或严重,具体取决于组件。例如,如果卸下风扇冗余系统中的某个风扇,该事件的严重性为“次要”。
主要 有些警告事件可能代表系统存在重大风险。如果风扇在系统之外的时间过长,该事件可能会变成主要事件,因为冗余性能会受到影响。对于在组织中的任务需要冗余的系统来说,如果它缺少组件的时间过长,将会导致组件出现故障,并且没有备用可用,最终会造成系统故障。
严重 检测到组件处于故障范围内的事件是“严重”事件。组件(如风扇、交流电源线或内存模块)发生故障会危及系统运行和保留数据的能力。

事件类型、严重性和状态之间的关系

下表列出了重要组件的示例事件,并说明了事件类型、严重性和状态之间的关系。

注: 由于 VMware ESXi 操作系统的限制,此版本的 OpenManage Server Administrator 不提供“设置警报措施”功能。
表. 1: 事件类型、严重性和状态之间的关系
组件 事件或警报类型 严重性 状态
交流电源线 正常通知 正常运行
交流电源线 故障 严重 降级
电源 故障 严重 降级
冗余(针对电源系统) 正常 通知 正常运行
冗余(针对电源系统) 降级 次要 降级
冗余(针对电源系统) 丢失 主要 降级
温度 正常 通知 正常运行
温度 警告 次要 降级
温度 故障 严重 降级
散热 关机 严重 无法运行