更多: zhilu jiaocheng
识别网络问题
错误或者配置错误的网络连接可能会对集群造成严重破坏。
以下是可能的问题和修复的列表。
单播网络
一些网络交换机主动阻止多播流量。
如果群集传输设置为 udp,则这将启用多播通信。
可能的修复包括将流量切换到 udpu(UDP 单播),或者在网络交换机上启用多播。
防火墙问题
配置不正确的防火墙会使其他节点无法访问机器。
确保可以访问所有高可用性服务,以及公共网络上提供给消费者的任何集群服务的网络端口。
要查看集群节点上的防火墙配置,请使用以下命令:
# firewall-cmd --list-all interfaces: eth0 eth1 eth2 eth3 sources: services: dhcpv6-client http ssh ports: masquerade: no forward-ports: icmp-blocks: rich rules:
上面的 firewall-cmd 输出中明显没有高可用性服务。
将此服务添加回防火墙配置:
# firewall-cmd --permanent --add-service=high-availability # firewall-cmd --reload
验证集群现在再次完全运行。
# pcs status
分裂网络
如果将多个集群节点插入不同的交换机,并且这些交换机之间的连接断开,集群将进入裂脑模式,从而丢失大量节点。
通过使用冗余网络和互连,可以降低发生这些类型故障的风险。
丢包
当网络链接过度饱和时,数据包可能会被丢弃,从而导致奇怪且间歇性的集群故障。
通过使用单独的网络进行私有集群通信、公共客户端访问和存储网络,可以避免这些情况。
日期:2020-09-17 00:14:12 来源:oir作者:oir