有同学咨询,他们公司的一台服务器,是一台Linux用作负载均衡的服务器,最近在使用过程中,随着连接数的增加,服务器突然挂掉了,这是怎么回事呢?今天丁老师就这个问题做一下解答。
故障分析
服务器:Linux
用途:负载均衡服务
故障情况:用户连接数增加,服务器挂掉。
故障排查:
1.应用程序故障:通过测试,无Bug报错,应用程序正常。
2.系统故障:无,系统无报错,仅用户连接增加到一定程度后才会崩溃。
猜测与分析:
在确定不是系统本身和部署的程序故障而导致的问题后,丁老师心里已大概有了方向,估计就是哪个地方的配置引起的故障,意思就是某个地方配置的连接数量达到了实际连接数量的峰值而导致的系统崩溃。
故障修复
在确定了大概方向后,丁老师对相关的系统文件进行了逐一排查。
1.首先,分别查看系统CPU负载情况、内存是否爆满、load是否异常。
top
htop uptime
2.一切正常,其次查看系统连接数。
netstat -an | wc -l ulimit -n
此时发现,系统连接数非常高,并且文件句柄返回1024,此时丁老师判断该问题大致是由高并发引起的故障。
3.查看Nginx服务器日志,检查报错信息。
tail -f /var/log/nginx/error.log
在错误日志中,查看到返回too many open files信息,再查看系统日志。
/var/log/messages dmesg
返回socket: too many open files。这时丁老师已经可以判断,这基本上是由高并发引起文件句柄被耗尽而引发的故障。
4.查看limits.conf
/etc/security/limits.conf
5.增加连接数
soft nofile 65535 hard nofile 65535
6.修改系统配置
/etc/systemd/system.conf /etc/systemd/user.conf DefaultLimitNOFILE=65535 DefaultLimitNPROC=65535
7.给Nginx加大文件句柄。
vi /usr/lib/systemd/system/nginx.service LimitNOFILE=65535
8.重启服务器,故障解决。
全文总结
通过该问题发现,该故障引起的核心是Linux服务器在高并发情况下,因文件句柄上限过低(默认设置为1024),导致连接耗尽,服务崩溃,同时相关配置是未持久化的,因此每次重启后,都会恢复默认值从而再次引起故障。
这种故障出现时通常表现为:
1.网站突然打不开、请求超时。
2.并发一高服务器就崩溃宕机。
3.服务器重启后会短暂恢复,但很快就再次崩溃。
常见错误日志:
too many open files EMFILE socket: too many open files
针对该故障,丁老师先是通过查看系统负载、连接数以及错误日志,快速定位是由文件句柄耗尽引起的故障。然后在解决时,通过修改Nginx的limits.conf、调整systemd的LimitNOFILE等配置文件参数,提升系统的文件句柄数配置,避免因高并发导致处罚文件句柄上限而引起崩溃的问题。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/268767.html