发现大量的TIME_WAIT解决办法

阿里云ECS关闭 tcp_tw_recycle，否则与 NAT 冲突，可能导致服务不通；

故障现象：在使用OpenVpn的过程中，连通vpn后访问目标网络时，当对该NAT网络中的一台服务器TCP连接数进行优化操作过后，无法直接连接成功，而使用跳板机间接的却可以连接成功。

1. tw_reuse，tw_recycle 必须在客户端和服务端timestamps 开启时才管用（默认打开）
2. tw_reuse 只对客户端起作用，开启后客户端在1s内回收
3. tw_recycle 对客户端和服务器同时起作用，开启后在 3.5*RTO 内回收，RTO 200ms~ 120s 具体时间视网络状况。内网状况比tw_reuse 稍快，公网尤其移动网络大多要比tw_reuse 慢，优点就是能够回收服务端的TIME_WAIT数量

tcp_timestamps默认是开启，如果再把tcp_tw_recycle设置为1，则60s内同一源ip主机的socket connect请求中的timestamp必须是递增的。也就是说服务器打开了 tcp_tw_reccycle了，就会检查时间戳，如果对方发来的包的时间戳是乱跳的或者说时间戳是滞后的，这样服务器肯定不会回复，所以服务器就把带了“倒退”的时间戳的包当作是“recycle的tw连接的重传数据，不是新的请求”，于是丢掉不回包，就出现了开始说的syn不响应。

tcp_timestamps选项的特性：server端当tcp_tw_recycle和tcp_timestamps都是1的时候，会检查收到数据包TCP选项字段中的的timestamp（TS Value），当来自同一个IP地址（任意源端口号）后来的数据包中TCP选项字段如果有timestamp且比前面的数据包中的timestamp小，则server不做ACK响应。

解决方法：在/etc/sysctl.conf文件中再添加如下一行：net.ipv4.tcp_timestamps = 0 （不检查时间戳）

即：

net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_fin_timeout = 10
net.ipv4.tcp_timestamps = 0

---------------------------------------------------------------------------------------------------------

net.ipv4.tcp_max_tw_buckets = 5000 表示系统同时保持TIME_WAIT套接字的最大数量，如果超过这个数字，TIME_WAIT套接字将立刻被清除并打印警告信息

存在一定的TIME_WAIT是正常的，个人认为如果超过了连接数的比例就不是很正常

服务器端与客户端建立TCP/IP连接后关闭SOCKET后，服务器端连接的端口状态变为TIME_WAIT.主动关闭的一方在发送最后一个 ack 后

就会进入 TIME_WAIT 状态停留2MSL（max segment lifetime）时间

这个是TCP/IP必不可少的，也就是“解决”不了的,也就是TCP/IP设计者本来是这么设计的

主要有两个原因

1。防止上一次连接中的包，迷路后重新出现，影响新连接

（经过2MSL，上一次连接中所有的重复包都会消失）

2。可靠的关闭TCP连接

在主动关闭方发送的最后一个 ack(fin) ，有可能丢失，这时被动方会重新发fin, 如果这时主动方处于 CLOSED 状态，就会响应 rst 而不是 ack。所以主动方要处于 TIME_WAIT 状态，而不能是 CLOSED 。

TIME_WAIT 并不会占用很大资源的，除非受到攻击。

还有，如果一方 send 或 recv 超时，就会直接进入 CLOSED 状态

发现系统存在大量TIME_WAIT状态的连接，需要通过调整内核参数解决，

vim /etc/sysctl.conf

编辑文件，加入以下内容：

net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_fin_timeout = 10

net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时，启用cookies来处理，可防范少量SYN攻击，默认为0，表示关闭；

net.ipv4.tcp_tw_reuse = 1 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接，默认为0，表示关闭；该文件表示是否允许重新应用处于TIME-WAIT状态的socket用于新的TCP连接(这个对快速重启动某些服务,而启动后提示端口已经被使用的情形非常有帮助)

net.ipv4.tcp_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收，默认为0，表示关闭。

net.ipv4.tcp_fin_timeout = 10 表示如果套接字由本端要求关闭，这个参数决定了它保持在FIN-WAIT-2状态的时间，对应 /proc/sys/net/ipv4/tcp_fin_timeout 的值，经测试设置为10秒比较稳妥。缺少值是60秒

设置完成后sysctl -p

# netstat -ntu | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

不能重用端口可能会造成系统的某些服务无法启动，比如要重启一个系统监控的软件，它用了40000端口，而这个端口在软件重启过程中刚好被使用了，就可能会重启失败的。linux默认考虑到了这个问题，有这么个设定：

#查看系统本地可用端口极限值
cat /proc/sys/net/ipv4/ip_local_port_range

用这条命令会返回两个数字，默认是：32768 61000，说明这台机器本地能向外连接61000-32768=28232个连接，注意是本地向外连接，不是这台机器的所有连接，不会影响这台机器的80端口的对外连接数。但这个数字会影响到代理服务器（nginx）对app服务器的最大连接数，因为nginx对app是用的异步传输，所以这个环节的连接速度很快，所以堆积的连接就很少。假如nginx对app服务器之间的带宽出了问题或是app服务器有问题，那么可能使连接堆积起来，这时可以通过设定nginx的代理超时时间，来使连接尽快释放掉，一般来说极少能用到28232个连接。

posted on 2017-01-04 10:45 星辰大海ゞ阅读(1946) 评论(0) 收藏举报

刷新页面返回顶部

星辰大海ゞ

导航

公告

发现大量的TIME_WAIT解决办法