运维排障案例解析
作为运维人,工作中总会遇到各种各样的故障需要处理。而每一次运维排障都像柯南破案,需要透过表象层层抽丝剥茧,才能一步步接近问题根源。这些故障情况,你在工作中遇到过吗?
运维排障案例包含:
某保险大型营销活动中间件重复宕机案例
保险与某大型支付平台合作进行营销活动时,部分请求无响应案例
某公司支付系统持续半天成功率低案例
某保险公司核心服务器宕机案例
案例1:
事件:
某保险一次大型营销活动中,出现中间件宕机。管理人员尝试重启进行恢复,但中间件重启后再次宕机。运维人员排查发现,中间件本身一切正常。经过几个轮回的排查,发现最终原因竟然是:
排障解析:
运维人员查看日志后,发现web服务器接受了很多请求、互联网带宽也被占得很满。第一反应是怀疑发生了攻击,于是排查了防火墙、IPS等安全设备,发现没有问题;没有头绪之下,只好又重新把日志全部看了一遍,发现在所有访问中,提交环节的操作占比远超出正常占比水平;抽查部分用户访问记录后,发现存在一份保单提交多次的现象最终找到问题原因:网络慢。
由于网络较慢,保险经纪人提交订单后不会立即显示成功,此时用户往往会重复点击提交,导致一份保单重复提交多次,由于活动期间用户量巨大,当大量用户提交多次,服务器接收的访问量呈指数级增长,最终拖垮了服务器。
而活动期间之所以出现网络慢:
一方面是因为网络没有规划好,宽带相对不足;
另一方面,正值运营商业务高峰期,导致网络较平时要慢。