83998 连接服务器出错_服务端 TCP 连接的 TIME_WAIT 问题分析与解决

民工哥技术之路

写在开头,大概 4 年前,听到运维同学提到 TIME_WAIT 状态的 TCP 连接过多的问题,但是当时没有去细琢磨;最近又听人说起,是一个新手进行压测过程中,遇到的问题,因此,花点时间,细深究一下。

问题描述

模拟高并发的场景,会出现批量的 TIME_WAIT 的 TCP 连接:

2d051ba148a4c2cbdde5bc20fee27714.png

短时间后,所有的 TIME_WAIT 全都消失,被回收,端口包括服务,均正常。即,在高并发的场景下,TIME_WAIT 连接存在,属于正常现象。

线上场景中,持续的高并发场景:

  • 一部分 TIME_WAIT 连接被回收,但新的 TIME_WAIT 连接产生;
  • 一些极端情况下,会出现大量的 TIME_WAIT 连接。

Think:上述大量的 TIME_WAIT 状态 TCP 连接,有什么业务上的影响吗?

Nginx 作为反向代理时,大量的短链接,可能导致 Nginx 上的 TCP 连接处于 time_wait 状态:

  • 1.每一个 time_wait 状态,都会占用一个「本地端口」,上限为 65535(16 bit,2 Byte);
  • 2.当大量的连接处于 time_wait 时,新建立 TCP 连接会出错,address already in use : connect 异常

统计 TCP 连接的状态:

// 统计:各种连接的数量$ netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'ESTABLISHED 1154TIME_WAIT 1645

Tips:TCP 本地端口数量,上限为 65535(6.5w),这是因为 TCP 头部使用 16 bit,存储「端口号」,因此约束上限为 65535。

问题分析

大量的 TIME_WAIT 状态 TCP 连接存在,其本质原因是什么?

  • 1.大量的短连接存在
  • 2.特别是 HTTP 请求中,如果 connection 头部取值被设置为 close 时,基本都由「服务端」发起主动关闭连接
  • 3.而,TCP 四次挥手关闭连接机制中,为了保证 ACK 重发和丢弃延迟数据,设置 time_wait 为 2 倍的 MSL(报文最大存活时间)

TIME_WAIT 状态:

  • 1.TCP 连接中,主动关闭连接的一方出现的状态;(收到 FIN 命令,进入 TIME_WAIT 状态,并返回 ACK 命令)
  • 2.保持 2 个 MSL 时间,即,4 分钟;(MSL 为 2 分钟)

解决办法

解决上述 time_wait 状态大量存在,导致新连接创建失败的问题,一般解决办法:

1.客户端,HTTP 请求的头部,connection 设置为 keep-alive,保持存活一段时间:现在的浏览器,一般都这么进行了

2.服务器端

允许 time_wait 状态的 socket 被重用

缩减 time_wait 时间,设置为 1 MSL(即,2 mins)

结论:几个核心要点

1.time_wait 状态的影响:

  1. TCP 连接中,「主动发起关闭连接」的一端,会进入 time_wait 状态
  2. time_wait 状态,默认会持续 2 MSL(报文的最大生存时间),一般是 2x2 mins
  3. time_wait 状态下,TCP 连接占用的端口,无法被再次使用
  4. TCP 端口数量,上限是 6.5w(65535,16 bit)
  5. 大量 time_wait 状态存在,会导致新建 TCP 连接会出错,address already in use : connect 异常

2.现实场景:

  1. 服务器端,一般设置:不允许「主动关闭连接」
  2. 但 HTTP 请求中,http 头部 connection 参数,可能设置为 close,则,服务端处理完请求会主动关闭 TCP 连接
  3. 现在浏览器中, HTTP 请求 connection 参数,一般都设置为 keep-alive
  4. Nginx 反向代理场景中,可能出现大量短链接,服务器端,可能存在

3.解决办法:

  1. 服务器端允许 time_wait 状态的 socket 被重用
  2. 缩减 time_wait 时间,设置为 1 MSL(即,2 mins)

附录

几个方面:

1.TCP 连接状态的查询

2.MSL 时间

3.TCP 三次握手和四次握手

附录 A:查询 TCP 连接状态

Mac 下,查询 TCP 连接状态的具体命令:

// Mac 下,查询 TCP 连接状态$ netstat -nat |grep TIME_WAIT// Mac 下,查询 TCP 连接状态,其中 -E 表示 grep 或的匹配逻辑$ netstat -nat | grep -E "TIME_WAIT|Local Address"Proto Recv-Q Send-Q Local Address Foreign Address (state)tcp4 0 0 127.0.0.1.1080 127.0.0.1.59061 TIME_WAIT// 统计:各种连接的数量$ netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'ESTABLISHED 1154TIME_WAIT 1645

附录 B:MSL 时间

MSL,Maximum Segment Lifetime,“报文最大生存时间”

1.任何报文在网络上存在的最长时间,超过这个时间报文将被丢弃。(IP 报文)

2.TCP报文 (segment)是ip数据报(datagram)的数据部分。

Tips:RFC 793中规定MSL为2分钟,实际应用中常用的是30秒,1分钟和2分钟等。

2MSL,TCP 的 TIME_WAIT 状态,也称为2MSL等待状态:

  • 当TCP的一端发起主动关闭(收到 FIN 请求),在发出最后一个ACK 响应后,即第3次握 手完成后,发送了第四次握手的ACK包后,就进入了TIME_WAIT状态。
  • 2.必须在此状态上停留两倍的MSL时间,等待2MSL时间主要目的是怕最后一个 ACK包对方没收到,那么对方在超时后将重发第三次握手的FIN包,主动关闭端接到重发的FIN包后,可以再发一个ACK应答包。
  • 3.在 TIME_WAIT 状态时,两端的端口不能使用,要等到2MSL时间结束,才可继续使用。(IP 层)
  • 4.当连接处于2MSL等待阶段时,任何迟到的报文段都将被丢弃。

不过在实际应用中,可以通过设置 「SO_REUSEADDR选项」,达到不必等待2MSL时间结束,即可使用被占用的端口。

附录 C:TCP 三次握手和四次握手

具体示意图:

1.三次握手,建立连接过程

2.四次挥手,释放连接过程

bd5a86437ea5b41ec9b0b57e5ae2c9f8.png

几个核心疑问:

1.time_wait 是「服务器端」的状态?or 「客户端」的状态?

  • RE:time_wait 是「主动关闭 TCP 连接」一方的状态,可能是「客服端」的,也可能是「服务器端」的
  • 一般情况下,都是「客户端」所处的状态;「服务器端」一般设置「不主动关闭连接」

2.服务器在对外服务时,是「客户端」发起的断开连接?还是「服务器」发起的断开连接?

  • 正常情况下,都是「客户端」发起的断开连接
  • 「服务器」一般设置为「不主动关闭连接」,服务器通常执行「被动关闭」
  • 但 HTTP 请求中,http 头部 connection 参数,可能设置为 close,则,服务端处理完请求会主动关闭 TCP 连接

关于 HTTP 请求中,设置的主动关闭 TCP 连接的机制:TIME_WAIT的是主动断开方才会出现的,所以主动断开方是服务端?

1.答案是是的。在HTTP1.1协议中,有个 Connection 头,Connection有两个值,close和keep-alive,这个头就相当于客户端告诉服务端,服务端你执行完成请求之后,是关闭连接还是保持连接,保持连接就意味着在保持连接期间,只能由客户端主动断开连接。还有一个keep-alive的头,设置的值就代表了服务端保持连接保持多久。

2.HTTP默认的Connection值为close,那么就意味着关闭请求的一方几乎都会是由服务端这边发起的。那么这个服务端产生TIME_WAIT过多的情况就很正常了。

3.虽然HTTP默认Connection值为close,但是,现在的浏览器发送请求的时候一般都会设置Connection为keep-alive了。所以,也有人说,现在没有必要通过调整参数来使TIME_WAIT降低了。

关于 time_wait:

1.TCP 连接建立后,「主动关闭连接」的一端,收到对方的 FIN 请求后,发送 ACK 响应,会处于 time_wait 状态;

2.time_wait 状态,存在的必要性:

  • a、可靠的实现 TCP 全双工连接的终止:四次挥手关闭 TCP 连接过程中,最后的 ACK 是由「主动关闭连接」的一端发出的,如果这个 ACK 丢失,则,对方会重发 FIN 请求,因此,在「主动关闭连接」的一段,需要维护一个 time_wait 状态,处理对方重发的 FIN 请求;
  • b、处理延迟到达的报文:由于路由器可能抖动,TCP 报文会延迟到达,为了避免「延迟到达的 TCP 报文」被误认为是「新 TCP 连接」的数据,则,需要在允许新创建 TCP 连接之前,保持一个不可用的状态,等待所有延迟报文的消失,一般设置为 2 倍的 MSL(报文的最大生存时间),解决「延迟达到的 TCP 报文」问题;

作者:NingG

ningg.top/computer-basic-theory-tcp-time-wait/

end

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/350936.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SqlServer 时间格式化

select GETDATE() as 当前日期, DateName(year,GetDate()) as 年,DateName(month,GetDate()) as 月,DateName(day,GetDate()) as 日,DateName(dw,GetDate()) as 星期,DateName(week,GetDate()) as 周数,DateName(hour,GetDate()) as 时,DateName(minute,GetDate()) as 分,DateN…

[EBOOK]十大Java性能问题

有兴趣了解更多吗? 然后,您应该在此处下载相关的电子书。 Java中的大多数性能问题都可以归因于一些根本原因。 当然,偶尔会有一些奇怪的极端情况突然出现,并在应用程序中造成了严重破坏,但是在大多数情况下&#xff0…

请上传sku预览图后重新操作_拼多多商家版APP新增商品操作步骤

① 点击右下角“添加商品”按钮,进入创建商品页面;② 快速创建商品:目前手机版支持快速上传商品啦:仅通过上传商品标题、商品轮播图、商品分类、价格和库存,点击创建按钮,即可快速上传您的第一件店…

消息队列概述[幻灯片]

昨天我发表了一个演讲,涉及使用消息队列的所有方面。 我以前曾写过“您可能不需要消息队列” –现在的结论有些细微差别,但我仍然坚持简单性的观点。 演讲探讨了使用消息队列的各种好处和用例,并讨论了典型“消息队列代理”体系结构的替代方…

tf.reshape()

_image tf.reshape(x, [-1,28, 28, 1]) # -1表示任意数量的样本数,大小为28x28深度为一的张量 # 可以忽略(其实是用深度为28的,28x1的张量,来表示28x28深度为1的张量)

面向对象进阶-反射(二)重要知识点

# 面向对象的进阶# 其他常用模块# 作业 考试题# 网络编程 2天# ftp作业# class A:pass# class B(A):pass# a A()# print(isinstance(a,A))返回true,判断a是不是A的对象# print(issubclass(B,A))返回true,判断B是不是A的子类# print(issubclass(A,B))》…

异步过程的自动化测试

自从我开发了具有异步行为的服务器端应用程序以来已经有一段时间了,该行为还不是事件驱动的系统。 异步行为始终是设计和测试中一个有趣的挑战。 通常,异步行为不应该很难进行单元测试-毕竟,动作的行为不一定必须在时间上进行耦合&#xff08…

iphone以旧换新活动_iPhone第3轮降价背后:销售下滑库克甩锅给中国,国产手机崛起分食蛋糕...

排版 | 王科编辑 | 梁夜作者 | 吴晓宇来源 | 财经天下周刊(ID:cjtxzk)曾经吃掉手机行业9成利润的巨无霸公司苹果,不得不“自降身价”。3月5日之后,苏宁易购、京东、拼多多等多家电商平台纷纷宣布,再次对旗舰级iPhone XS系列产品降…

tf.placeholder()

# x 是手写图像的像素值,y是图像对应的标签 x tf.placeholder(tf.float32, [None,784])y tf.placeholder(tf.float32, [None,10])

Docker 搭建pxc集群 + haproxy + keepalived 高可用(二)

上一节我们有了两个分片的pxc集群,这一节我们接着安装haproxy和keepalived的实现集群的高可用 一、先下载haproxy的镜像 [rootlocalhost ~]# docker pull haproxy二、在host主机上写好配置文件,启动容器时候读取haproxy.cfg,vim /usr/local/d…

.net httpwebrequest 并发慢_go语言并发之MPG模型

请记住go并发的真理:Do not communicate by sharing memory; instead, share memory by communicating.不要以共享内存的方式来通信,相反,要通过通信来共享内存。go语言天生的并发大家都知道,可是go是如何实现轻松的构造上万的协程…

python中os操作文件及文件路径

python中os操作文件及文件路径实例汇总 1 . python获取文件上一级目录:取文件所在目录的上一级目录 os.path.abspath(os.path.join(os.path.dirname(settings.py),os.path.pardir)) 2. os.path.pardir是父目录,os.path.abspath是绝对路径 printos.path.…

JVM内存管理(一)--GC简介

GC策略解决了哪些问题? 既然是要进行自动GC,那必然会有相应的策略,而这些策略解决了哪些问题呢,粗略的来说,主要有以下几点。 1、哪些对象可以被回收。 2、何时回收这些对象。 3、采用什么样的方式回收。 GC策略采用何…

java 自定义注释_带有自定义注释的Java注释教程

java 自定义注释Java批注提供有关代码的信息,并且它们对其批注的代码没有直接影响。 在本教程中,我们将学习Java注释,如何编写自定义注释 ,注释用法以及如何使用反射来解析注释 。 注释是在Java 1.5中引入的,现在它已…

vue标准时间改为时间戳_正确的济南初中寒假放假时间安排出来啦!家长速戳→...

原标题:正确的济南初中寒假放假时间安排出来啦!家长速戳→今年济南初中寒假放假时间↓↓↓ 2021年1月30日-2月26日第一学期1 寒假安排义务教育阶段学校寒假开始时间为2021年1月30日(腊月十八),寒假结束时间为2月26日(正月十五)。高中阶段学校…

给深度学习入门者的Python快速教程 - 基础篇

Python快速教程 - 基础篇 5.1 Python简介 本章将介绍Python的最基本语法,以及一些和深度学习还有计算机视觉最相关的基本使用。 5.1.1 Python简史 Python是一门解释型的高级编程语言,特点是简单明确。Python作者是荷兰人Guido van Rossum&#xff0c…

模糊理论在机器人传感器中的应用_智能家电中的传感器应用大全

面对智能化家庭网络的逐渐普及和发展,各种各样的传感器引入到家电中变得更加迫切。人们希望家电能增加使用的舒适度、减少耗能和耗水、清洗方便、降低噪声和振动、提高使用质量、实现复杂的智能。以前传感器主要应用于温度控制和水平控制系统, 现在它们的…

用Java解析:您可以使用的所有工具和库

如果需要从Java解析语言或文档,则从根本上讲有三种方法可以解决问题: 使用支持该特定语言的现有库:例如用于解析XML的库 手动构建自己的自定义解析器 生成解析器的工具或库:例如ANTLR,可用于构建任何语言的解析器 …

一台服务器装两个sql server 如何访问吗_服务器多网卡多路由策略

场景背景与需求某公司新买一台服务器, 服务器资源(cpu,内存,硬盘)比较多,并且有多个网卡。运维工程师为了节省资源,在服务器上搭建多个服务,希望通过多个网卡实现流量分流。但由于运维工程师对网络理解不够深入,将服务器的多个网卡都配置了同…

python seed()

Python seed() 函数 seed() 方法改变随机数生成器的种子,可以在调用其他随机模块函数之前调用此函数。 以下是 seed() 方法的语法: import random random.seed ( [x] )注意:seed(()是不能直接访问的,需要导入 …