1627   集群在其控制器连接中的冗余性不足。

说明

集群检测到在其与磁盘控制器的连接中没有足够的冗余性。这意味着 SAN 中的另一故障可能会导致无法访问应用程序数据。集群 SAN 环境应具有与每个磁盘控制器的冗余连接。当某个 SAN 组件中发生故障时,此冗余性可保证操作的持续。

要提供建议的冗余性,应对集群进行配置,以使:

  • 每个节点均可通过节点上的两个或多个不同发起方端口来访问所有磁盘控制器。
  • 每个节点均可通过两个或多个不同控制器目标端口来访问所有磁盘控制器。注:某些磁盘控制器只提供单个目标端口。
  • 每个节点均可通过节点上的至少一个发起方端口来访问所有磁盘控制器目标端口。

如果未报告更高优先级的错误,那么此错误通常表示 SAN 设计有问题、SAN 分区有问题或者磁盘控制器有问题。

如果有与 SAN 或磁盘控制器相关且优先级更高的未修复错误,那么应在解决此错误前先修复这些错误,因为这些错误可能指出了缺少冗余性的原因。必须先修复的错误代码包括:

  • 1210 已排除本地 FC 端口
  • 1230 已排除登录

注:如果在有意地重新配置磁盘控制器后或 SAN 重新分区后没有执行所需操作来为新 MDisk 重新扫描光纤通道网络,那么可能会报告此错误。

会为若干个不同的错误标识报告 1627 错误代码。错误标识指出欠缺冗余性的区域。事件日志条目中报告的数据指出发现此状况的位置。

错误标识的含义如下所示。对于每个错误标识,给出针对该状况的最可能原因。如果在建议的区域中未发现问题,请检查所有 SAN 组件(交换机、控制器、磁盘、电缆和集群)的配置和状态以确定发生单点故障的位置。

010040 某个磁盘控制器只能通过单个节点端口访问。

  • 节点检测到它只通过一个发起方端口与磁盘控制器连接,而有多个发起方端口可运行。
  • 错误数据指出了所连接端口的设备 WWNN 和 WWPN。
  • 分区问题或光纤通道连接硬件故障可能导致出现此情况。

010041 只能通过控制器上的单个端口访问磁盘控制器。

  • 节点检测到它仅与磁盘控制器上的一个目标端口连接,而需要它与多个目标端口连接。
  • 错误数据指出了所连接的磁盘控制器端口的 WWPN。
  • 分区问题或光纤通道连接硬件故障可能导致出现此情况。

010042 磁盘控制器上仅有一个端口可通过集群中的每个节点访问。

  • 当控制器上有多个端口可以连接时,磁盘控制器上仅有一个端口可由每个节点访问。
  • 错误数据指出了所连接的磁盘控制器端口的 WWPN。
  • 分区问题或光纤通道连接硬件故障可能导致出现此情况。

010043 只能通过先前配置的半数或少于半数的控制器端口访问磁盘控制器。

  • 虽然磁盘控制器上可能仍有多个可访问的端口,但是控制器的硬件组件可能发生了故障,或者某个 SAN 光纤网已失败,因此可运行的系统配置已缩减为单点故障。
  • 错误数据指出了仍然连接的磁盘控制器上的端口,还列出了需要连接但未连接的控制器端口。
  • 磁盘控制器问题、交换机硬件问题、分区问题或电缆故障可能导致出现这种状况。

010044 无法通过某个节点访问磁盘控制器。

  • 节点检测到它对磁盘控制器没有访问权。因为控制器仍可通过 I/O 组中的伙伴节点访问,所以主机应用程序仍可访问控制器的数据。
  • 错误数据指出了缺少的磁盘控制器的 WWPN。
  • 分区问题或连线错误可能导致出现这种状况。

010117 在站点策略允许访问设备的节点上,无法访问磁盘控制器

  • 在站点策略允许访问设备的节点上,无法访问磁盘控制器。如果磁盘控制器具有多个 WWNN,那么该节点仍可通过某个其他 WWNN 访问磁盘控 制器。
  • 错误数据指出了不可访问的磁盘控制器的 WWNN。
  • 分区问题或光纤通道连接硬件故障可能导致出现此情况。

用户响应

  1. 检查错误标识和数据,以获取该错误的更详细描述。
  2. 确定是否有意更改了 SAN 分区或磁盘控制器配置以降低集群对所示磁盘控制器的访问权。如果执行了以下任何操作,请继续执行步骤 8。
  3. 使用 GUI 或 CLI 命令 lsfabric 以确保对所有磁盘控制器 WWPN 的报告与期望情况相同。
  4. 确保所有磁盘控制器 WWPN 已适当分区供集群使用。
  5. 检查磁盘控制器上是否有任何未修复的错误。
  6. 确保所有光纤通道电缆的两端均已连接至正确的端口。
  7. 检查光纤通道电缆和接口中是否发生故障。
  8. 解决问题后,请使用 GUI 或 CLI 命令 detectmdisk光纤通道网络中重新扫描对 MDisk 的更改。注:除非确认已修复所有问题,否则请勿尝试检测 MDisk。检测 MDisk 可能会过早地掩盖某个问题。
  9. 将您刚修复的错误标记为已修复。集群将重新验证冗余性,如果冗余性仍然不足,将报告另一个错误。
  10. 转至 MAP 5700:修复验证。

可能的 FRU 原因或其他原因: