Pacemaker 集群网络故障排除
更多: zhilu jiaocheng

识别网络问题

错误或者配置错误的网络连接可能会对集群造成严重破坏。
以下是可能的问题和修复的列表。

单播网络

一些网络交换机主动阻止多播流量。
如果群集传输设置为 udp,则这将启用多播通信。

可能的修复包括将流量切换到 udpu(UDP 单播),或者在网络交换机上启用多播。

防火墙问题

配置不正确的防火墙会使其他节点无法访问机器。
确保可以访问所有高可用性服务,以及公共网络上提供给消费者的任何集群服务的网络端口。

要查看集群节点上的防火墙配置,请使用以下命令:

# firewall-cmd --list-all
interfaces: eth0 eth1 eth2 eth3 sources: 
services: dhcpv6-client http ssh ports: 
masquerade: no 
forward-ports: 
icmp-blocks: 
rich rules:

上面的 firewall-cmd 输出中明显没有高可用性服务。
将此服务添加回防火墙配置:

# firewall-cmd --permanent --add-service=high-availability
# firewall-cmd --reload

验证集群现在再次完全运行。

# pcs status

分裂网络

如果将多个集群节点插入不同的交换机,并且这些交换机之间的连接断开,集群将进入裂脑模式,从而丢失大量节点。
通过使用冗余网络和互连,可以降低发生这些类型故障的风险。

丢包

当网络链接过度饱和时,数据包可能会被丢弃,从而导致奇怪且间歇性的集群故障。
通过使用单独的网络进行私有集群通信、公共客户端访问和存储网络,可以避免这些情况。

日期:2020-09-17 00:14:12 来源:oir作者:oir