猕猴桃 发表于 2018-1-4 13:40:42

PA小课堂 | 做WEB认证时,流量完全中断,怎么办?



Panabit排错宝典专治“疑难杂症”,解决近期大家棘手的各种问题。每天定期在这里与大家见面,将一天内大家反馈最多的一个问题拿出来分析&解答。
遇到问题不要怕,Panabit为你来解答。

问题
网桥部署,做WEB认证时,将所有内网IP都加入免认证,一旦开启web认证,流量完全中断。

出现这样的情况,可能是某个内网协议被丢弃所导致的。在排查时,首先需要检测配置,在确认所有配置准确无误后方可开始排查工作。
针对这个问题,在这里将排查与解决方法分享给大家。

故障排查过程:
1)检测配置,分别确认免认证IP是否填对、WEB认证设置是否正确、伪IP防护是否设置正确。检测后发现这些都没问题。
2)观察现象,开启WEB认证,和用户QQ远程测试,开启WEB后流量没有马上中断,但大约10秒后,QQ远程突然中断。
3)再次检测免认证IP,QQ远程的客户机IP的确在白名单内,当WEB认证开启几秒后,PA上几乎就没流量了,应该是整个网桥的流量都断掉了。
4)将PA和WEB认证都升级到最新版本,再次测试,问题依然存在。
5)登录SSH,观察floweye hooker list 的计数,开启WEB认证后,webauth模块有少量丢包,这个丢包不会导致全网流量断掉。

6)初步判断应该某个内网协议被丢弃导致的,结合观察到的现象,刚开WEB认证的时候流量是通的,几秒过后就不通,很有可能是更新ARP的时候,ARP的数据被WEB认证模块丢掉了。这个也能解释为什么floweye hooker list 能观察webauth模块有少量的丢包。
7)将常用协议加入免认证。测试,流量不再中断。但在实际运用的时候,不能将整个常用协议都放行,要找出需要免认证的协议。
8)尝试只将ARP协议免认证。测试发现,问题依然存在,流量还是全断,所以说问题并不在ARP处。
ARP只有核心和防火墙之间的互联才会用到,如果不是ARP的原因,那很有可能是核心路由与防火墙之间有协议,并且核心路由与防火墙的互联地址并没有加入白名单!
9)在TOP用户观察核心路由的互联地址,发现有SNMP和icmp,SNMP的流量是持续的,icmp是每隔几秒有一次。这应该是核心与防火墙之间icmp心跳检测,将核心路由的互联IP加入白名单,问题解决。

建议:
做WEB认证时,流量完全中断。当出现这个问题时,不要惊慌,只需要按照工程师总结的排查方法来做就可以快速找出问题根源所在。



tttt 发表于 2021-3-9 09:13:18

楼主,你这个故障分析,居然连拓扑图都不画一下。
页: [1]
查看完整版本: PA小课堂 | 做WEB认证时,流量完全中断,怎么办?