在起搏器集群中有哪些不同的Fencing方法

结合Fencing方法

Fencing方法可以组合使用。
当一个节点需要被隔离时,一个隔离设备可以通过阻塞光纤通道交换机上的端口来切断光纤通道,然后 ILO 卡可以重新启动有问题的机器。
多种Fencing方法可以作为彼此的备份。
例如,集群节点首先通过电源防护进行防护,但如果失败,则使用结构防护。

什么是fencing?

Red Hat High Availability Add-on 使用防护来确保集群中的数据完整性。
防护通常是通过关闭节点电源来完成的,因为死节点显然无法做任何事情。
在其他情况下,将使用操作组合将节点从网络(阻止新工作到达)或者存储(阻止节点写入共享存储)中切断。
防护是集群中服务和资源恢复的必要步骤。
Red Hat High Availability Add-on 不会启动无响应节点的资源和服务恢复,直到该节点被隔离。

没有fencing的集群操作

没有fencing,共享存储资源上的数据完整性无法得到保证。
在由节点 A、B 和 c 组成的三节点集群中,未配置任何防护设备。
节点 A 有一个从共享存储挂载的 ext4 文件系统,并且正在运行一个 Web 服务器,为该文件系统中的页面提供服务。
如果节点 A 在网络上停止响应,则会触发以下事件链:

  • 节点 B 在执行快速文件系统检查后从共享存储挂载文件系统。
  • 节点 B 启动 Web 服务。
  • 节点 A 再次唤醒并继续写入安装在节点 Bas 上的同一个 ext4 文件系统。
  • 文件系统损坏随之而来。

带fencing的集群操作

为了阻止节点 A 访问文件系统,从而导致文件系统损坏,在节点 B 接管资源后,必须确保在另一个节点尝试挂载文件之前,节点 A 将不再访问该文件系统系统。
此过程称为围列。

配置围列后,事件链会略有不同:

  • Node Band 节点 C 从存储中切断了节点 A。
  • 节点 B 在执行快速文件系统检查后从共享存储挂载文件系统。
  • 节点 B 启动 Web 服务。
  • 节点 A 再次唤醒并尝试写入已安装的文件系统。这将失败,因为节点 A 无法再访问共享存储资源。或者节点 A 重新启动并干净利落地加入集群。
更多: zhilu jiaocheng

fencing的机制概述

有两种主要的fencing方法:power fencing,也称为在头部射出另一个节点 (STONITH) 和fabric fencing
两种防护方法都需要防护设备,例如电源开关或者虚拟防护守护程序和防护代理软件,以启用集群和防护设备之间的通信。
防护代理在特定节点应该被防护时进行通信。

Power fencing

电源防护需要切断服务器的电源。
这种击剑方法称为 STONITH,是 Shoot The Other Node In The Head 的缩写。
存在两种不同类型的电源围列设备:

  • 切断电源的外部围列硬件,例如网络控制的电源板。
  • 用于关闭节点硬件电源的内部防护硬件,例如 ILO、DRAC、IPMI 或者虚拟机防护。

电源防护可以配置为关闭目标机器并保持关闭,或者关闭然后再次打开。
重新打开机器有一个另外的好处,如果集群服务已经启用,机器应该干净地恢复并重新加入集群。

下图显示了使用网络控制的电源控制器和服务器中的两个电源的电源防护示例。

Fabric fencing

结构防护(SCSI 防护)需要在存储级别断开机器与存储的连接。
这可以通过关闭光纤通道交换机上的端口或者使用 SCSI 保留来完成。
如果一台机器只使用结构防护而不是与电源防护结合使用,则管理员有责任确保机器再次加入集群。
这通常通过重新启动或者重启故障节点来完成。

下图显示了使用多路径光纤通道存储的结构防护示例。

日期:2020-09-17 00:14:14 来源:oir作者:oir