网深科技加速某医院支付系统故障定位,实现高效稳定支付体验
背景
河北某大型医院有一台统一支付平台系统,有两个支付终端访问此平台,统一支付平台对外访问支付宝和微信的支付接口,近期发现统一支付平台在上午10点20分和凌晨2点出现支付响应慢,并最终提示超时,支付未成功情况。
我们已将NetInside流量分析系统部署到医院的机房内,使用流量分析系统提供实时和历史原始流量。本次分析重点针对支付业务系统性能和异常进行分析,以供安全取证、性能分析、网络质量监测以及深层网络分析。
分析时间
报告分析时间范围为:2023-04-07 2:00—2023-04-07 3:00,时长共计1小时。
详细分析
针对支付异常采取了以下详细分析。
业务梳理
对业务系统流程进行梳理,如下图。
对异常超时情况分析,如下图。
一种情况:统一支付平台与外网支付宝和微信的发送或接收超时。
另一种情况:两个终端机和统一支付平台的发送或接收超时。
外网地址查询
通过可观测功能查找到42访问外网的两个地址,如下图。
定义业务和应用
定义统一支付平台,并导入证书信息,如下图。
定义微信和支付宝应用,如下图。
数据包分析
下载统一支付平台和终端交互数据包,得到的是明文的信息,即对上述证书导入已无意义。
可观测大屏定义
通过自定义可观测大屏,对业务关键点进行指标设置,右侧是两台终端设备访问统一支付平台的指标。左侧是统一支付平台对外微信和支付宝支付接口的指标。如下图。
监测统一支付业务系统用户体验,如下图。
可观测大屏分析
在出现异常时间范围内监控,发现统一支付平台存在服务器响应时间平均在4秒多,慢访问百分比在14.28%,微信接口出现流入66%、流出87%丢包情况,如下图。
分析结论
系统几秒钟定位至问题根本原因,在出现异常时间范围内监控,发现:
1)统一支付平台存在服务器响应时间平均在4秒多,慢访问百分比在14.28%;
2)微信接口出现流入66%、流出87%丢包情况。
作用和价值
经过对现场流量的仔细分析,我们判断交换机到外网之间存在问题。建议网络管理员检查中间的软硬件设备,以进一步找出导致丢包的具体原因,并采取相应的措施快速解决问题。实际问题与分析结论一致,并且用户迅速找到具体设备并加以处理和解决。
流量分析系统在此过程中发挥了重要作用,通过其解决网络慢、卡顿和异常中断等问题的能力,为用户的网络环境提供了更加稳定的运行保障。