问题描述
从安装CDS网络版以来经常出现失效连接问题(提示描述为:Failover:Switched to the Failover Connection’net.pipe虽然此失效连接不会造成数据丢失也不会有红命令,但会出现工作站卡顿,间歇性连接不上等不良体验。
提示图例如下(提示为Failover):
4个月掉线频率统计数据:
6月份
|
7月份
|
8月份
|
9月份
|
日期 |
次数
|
日期
|
次数
|
日期
|
次数
|
日期
|
次数
|
6月10日 | 4 | 7月3日 | 4 | 8月1日 | 2 | 9月1日 | 9 |
6月11日 | 1 | 7月8日 | 5 | 8月2日 | 1 | 9月2日 | 2 |
6月12日 | 6 | 7月10日 | 2 | 8月3日 | 2 | 9月7日 | 2 |
6月13日 | 18 | 7月21日 | 2 | 8月4日 | 5 | 9月11日 | 10 |
6月14日 | 7 | 7月22日 | 2 | 8月6日 | 7 | 9月12日 | 4 |
6月15日 | 5 | 7月25日 | 4 | 8月11日 | 33 | 9月13日 | 2 |
|
| 7月27日 | 6 | 8月12日 | 254 | 9月17日 | 5 |
|
|
|
| 8月13日 | 1 | 9月19日 | 2 |
|
|
|
| 8月17日 | 1 | 9月22日 | 19 |
|
|
|
| 8月20日 | 4 | 9月23日 | 4 |
|
|
|
| 8月25日 | 3 | 9月25日 | 6 |
|
|
|
| 8月28日 | 10 | 9月26日 | 6 |
|
|
|
| 8月29日 | 67 | 9月29日 | 5 |
|
|
|
| 8月30日 | 3 | |
|
|
|
|
| 8月31日 | 13 | |
|
问题排查
掉线期间仪器是可以正常分析样品的,并且仪器运行期间掉线不会影响最终实验数据丢失,因此可以确定AIC与仪器之间的连接正常,锁定问题为AIC与服务器之间的连接问题。
影响AIC与服务器之间的连接问题主要有:网络不稳定、网线问题、网线接口问题、网卡问题、交换机问题等。
1. 网络不稳定
将服务器电脑连续ping了3万多个包,0丢失,证明网络稳定。不过此次ping包只能证明这一段时间是稳定的,也不能证明24h的网络均是稳定。于是我们将9月份的掉线时间统计出来分析发现3台AIC,其中有一台AIC掉线频率较高。
2. 网速问题
检查3台AIC电脑的网络设置,AIC02的网速设置为百兆,其他为千兆。这也许是AIC02掉线频率高的原因之一。于是我们对AIC02电脑的网络设置改为千兆,并且对此驱动进行了升级。10月份继续观察,发现还是会继续出现failover这个问题。
3. 网线与接口问题
网线我们检查是否为光纤网线,确认是光纤网线,且没有质量问题。接口为人工自制的水晶头,为了排查此问题我们也进行了更换。
4. 网卡问题
经检查网卡没有出现内存不足问题,并且将网线接口进行了重新拔插,避免接触不良问题。
5. 交换机问题
交换机我们更换了新的交换机,公司另外的实验室Empower系统使用完全一致的交换机,而Empower系统从未出现过如此频繁的掉线情况。
效果:经过上述一序列整改,我们观察了10月份的运行情况,10月掉线频率有所降低,10月份有6天出现掉线问题,其中一天内最多掉线5次,还是没有根治问题。
解决方案
1. 禁用快照功能
我们咨询了安捷伦网络工程师,他们觉得是我们快照开启原因导致。于是我们关闭了用户组的快照权限,再观察了半个月,发现掉线次数有所降低,15天出现2天掉线。15天后掉线频率又开始增加了,平均3天掉线一次,还是没有根治问题。
2. 交换机生成树协议优化
网络工程师查看交换机日志,分析3台AIC掉线的时间交换机也出现了掉线现象。锁定为交换机设置问题,于是优化了交换机生成树协议(调整为快速生成树,缩短收敛时间尽量帮助安捷伦优化)将原来的30秒优化了10秒之内了。
效果:交换生成树协议后连续3个月没有出现过failover问题了。
总结:生成树协议是网络防止环路的一种机制,每一个稍微好一点的交换机都默认开启的
每一款网络版的软件设计的时候都必须满足生成树协议的收敛时间,安捷伦网络版软件不满足交换机生成树协议的收敛时间,所以会掉线。加快交换机生成树协议的时间就能根治问题。
网络知识拓展
1.STP概念
生成树协议(spanning-tree-protocol,stp),就是在具有物理环路的交换机网络上生成没有回路的逻辑网络的方法,生成树协议使用生成树算法,在一个具有冗余路径的容错网络中计算出一个无环路的路径,使一部分端口处于转发状态,另一部分处于阻塞状态(备份状态),从而生成一个稳定的、无环路的生成树网络拓扑,而且一旦发现当前路径故障,生成树协议能立即激活相应的端口,打开备用链路,重新生成STP网络拓扑,从而保持网络的正常工作。
2.STP工作原理
1.交换桥协议数据单元(Bridge Protocol Data Unit,BPDU)
2.具有最高优先级(优先级ID 的值最小)的交换机被选为根交换机
3.在选举出根交换机后,所有的非根交换机会选择到达根交换机的最短路径
4.选举出根交换机和最短路径后,根端口和指定端口也随之确定
5.当网络拓扑发生变化时,交换机会自动启用备份链路
更多精彩内容请关注公众号“研发分析之路”