socket接收发送缓冲区

【tcp socket的发送与接收缓冲区】

发送缓冲队列

struct sk_buff

【TCP接收/发送滑动窗口与内核接收/发送缓冲区之间的关系】

滑动窗口的大小与套接字缓存区会在一定程度上影响并发连接的数据，每个TCP连接都会为维护TCP滑动窗口而消耗内存，这个窗口会根据服务器的处理速度收缩或扩张。

整个数据的流程中，首先网卡接收到的数据存放到内核缓冲区内，然后内核缓冲区存放的数据根据TCP信息将数据移动到具体的某一个TCP连接上的接收缓冲区内，也就是接收滑动窗口内，然后应用程序从TCP的接受缓冲区内读取数据，如果应用程序一直不读取，那么滑动窗口就会变小，直至为0.

如果网卡处理数据的速度比内核处理数据的速度慢，那么内核会有一个队列来保存这些数据，这个队列的大小就是由参数netdev_max_backlog决定的

对于发送数据来说，应用程序将数据拷贝到各自TCP发送缓冲区内（也就是发送滑动窗口），然后系统的所有TCP套接字上发送缓冲区（也就是发送滑动窗口）内的数据都将数据拷贝到内核发送缓冲区内，然后内核将内核缓冲区的数据经过网卡发送出去。

TCP的发送/接受缓冲区（也就是发送/接受滑动窗口），是针对某一个具体的TCP连接来说的，每一个TCP连接都会有相应的滑动窗口，但是内核的发送/接受缓冲区是针对整个系统的，里面存放着整个系统的所有TCP连接的接收/发送的数据。

每个TCP套接口有一个发送缓冲区，可以用SO_SNDBUF套接口选项来改变这一缓冲区的大小。当应用进程调用write往套接口写数据时，内核从应用进程缓冲区中拷贝所有数据到套接口的发送缓冲区，如果套接口发送缓冲区容不下应用程序的所有数据，或者是应用进程的缓冲区大于套接口的发送缓冲区，或者是套接口的发送缓冲区中有别的数据，应用进程将被挂起。内核将不从write返回。直到应用进程缓冲区中的所有数据都拷贝到套接口发送缓冲区。所以，从写一个TCP套接口的write调用成功返回仅仅表示我们可以重新使用应用进程缓冲区，它并不是告诉我们对方收到数据。

TCP发给对方的数据，对方在收到数据时必须给矛确认，只有在收到对方的确认时，本方TCP才会把TCP发送缓冲区中的数据删除。

UDP因为是不可靠连接，不必保存应用进程的数据拷贝，应用进程中的数据在沿协议栈向下传递时，以某种形式拷贝到内核缓冲区，当数据链路层把数据传出后就把内核缓冲区中数据拷贝删除。因此它不需要一个发送缓冲区。

写UDP套接口的write返回表示应用程序的数据或数据分片已经进入链路层的输出队列，如果输出队列没有足够的空间存放数据，将返回错误ENOBUFS.

应用程序可通过调用send(write, sendmsg等)利用tcp socket向网络发送应用数据，而tcp/ip协议栈再通过网络设备接口把已经组织成struct sk_buff的应用数据(tcp数据报)真正发送到网络上，由于应用程序调用send的速度跟网络介质发送数据的速度存在差异，所以，一部分应用数据被组织成tcp数据报之后，会缓存在tcp socket的发送缓存队列中，等待网络空闲时再发送出去。

同时，tcp协议要求对端在收到tcp数据报后，要对其序号进行ACK，只有当收到一个tcp 数据报的ACK之后，才可以把这个tcp数据报(以一个struct sk_buff的形式存在)从socket的发送缓冲队列中清除。

tcp socket的发送缓冲区实际上是一个结构体struct sk_buff的队列，我们可以把它称为发送缓冲队列，由结构体struct sock的成员sk_write_queue表示。sk_write_queue是一个结构体struct sk_buff_head类型，这是一个struct sk_buff的双向链表，其定义如下：

struct sk_buff_head {

struct sk_buff *next; //后指针

struct sk_buff *prev; //前指针

__u32 qlen; //队列长度（即含有几个struct sk_buff)

spinlock_t lock; //链表锁

};

内核代码中，先在这个队列中创建足够存放数据的struct sk_buff，然后向队列存入应用数据。

结构体struct sock的成员sk_wmem_queued表示发送缓冲队列中已分配的字节数，一般来说，分配一个struct sk_buff是用于存放一个tcp数据报，其分配字节数应该是MSS+协议首部长度。在我的实验环境中，MSS值是1448，协议首部取最大长度 MAX_TCP_HEADER，在我的实验环境中为224。经数据对齐处理后，最后struct sk_buff的truesize为1956。也就是队列中每分配一个struct sk_buff，成员sk_wmem_queue的值就增加1956。

struct sock的成员sk_forward_alloc是表示预分配长度。当我们第一次要为发送缓冲队列分配一个struct sk_buff时，我们并不是直接分配需要的内存大小，而是会以内存页为单位进行的预分配。

tcp协议分配struct sk_buff的函数是sk_stream_alloc_pskb。它首先根据传入的参数指定的大小在内存中分配一个struct sk_buff，如果成功，sk_forward_alloc取该大小值，并向上取整到页(4096字节)的整数倍。并累加到struct sock的成员sk_prot，也即表示tcp协议的结构体mytcp_prot的成员memory_allocated中，该成员是一个指针，指向变量 tcp_memory_allocated，它表示的是当前整个TCP协议当前为缓冲区所分配的内存(包括读缓冲队列)

当把这个新分配成功的struct sk_buff放入到缓冲队列sk_write_queue后，从sk_forward_alloc中减去该sk_buff的truesize值。第二次分配struct sk_buff时，只要再从sk_forward_alloc中减去新的sk_buff的truesize即可，如果sk_forward_alloc已经小于当前的truesize，则将其再加上一个页的整数倍值，并累加入tcp_memory_allocated。

也就是说，通过sk_forward_alloc使全局变量tcp_memory_allocated保存当前tcp协议总的缓冲区分配内存的大小,并且该大小是页边界对齐的。

(2)

前面讲到struct sock的成员sk_forward_alloc表示预分配内存大小，用于向全局变量mytcp_memory_allocated累加当前已分配的整个 TCP协议的缓冲区大小。之所以要累加这个值，是为了对tcp协议总的可用缓冲区大小作限制。表示TCP协议的结构体mytcp_prot还有几个成员与缓冲区相关。

mysysctl_tcp_mem是一个数组，由mytcp_prot的成员sysctl_mem指向，数组共有三个元素，mysysctl_tcp_mem[0]表示对缓冲区总的可用大小的最低限制，当前总共分配的缓冲区大小低于这个值，则没有问题，分配成功。 mysysctl_tcp_mem[2]表示对缓冲区可用大小的最高硬性限制，一旦总分配的缓冲区大小超出这个值，我们只好把tcp

socket 的发送缓冲区的预设大小sk_sndbuf减小为已分配缓冲队列大小的一半，但不能小于SOCK_MIN_SNDBUF(2K)，但保证这一次的分配成功。mysysctl_tcp_mem[1]介于前面两个值的中间，这是一个警告值，一旦超出这个值，进入警告状态，这个状态下，根据调用参数来决定此次分配是否成功。

这三个值的大小是根据所在系统的内存大小，在初始化时决定的，在我的实验环境中，内存大小为256M，这三个值分配是：96K，128K，192K。它们可以通过/proc文件系统，在/proc/sys/net/ipv4/tcp_mem中进行修改。当然，除非特别需要，一般无需改动这些缺省值。

mysysctl_tcp_wmem也是一个同样结构的数组，表示发送缓冲区的大小限制，由mytcp_prot的成员sysctl_wmem指向，其缺省值分别是4K，16K，128K。可以通过/proc文件系统，在/proc/sys/net/ipv4/tcp_wmem中进行修改。struct sock的成员sk_sndbuf的值是真正的发送缓冲队列的预设大小，其初始值取中间一个16K。在tcp数据报的发送过程中，一旦 sk_wmem_queued超过sk_sndbuf的值，则发送停止，等待发送缓冲区可用。因为有可能一批已发送出去的数据还没有收到ACK，同时，缓冲队列中的数据也可全部发出去，已达到清空缓冲队列的目的，所以，只要在网络不是很差的情况下(差到没有办法收到ACK)，这个等待在一段时间后会成功的。

全局变量mytcp_memory_pressure是一个标志，在tcp缓冲大小进入警告状态时，它置1，否则置0。

(3)

mytcp_sockets_allocated是到目前为止，整个tcp协议中创建的socket的个数，由mytcp_prot的成员 sockets_allocated指向。可以在/proc/net/sockstat文件中查看，这只是一个供统计查看用的数据，没有任何实际的限制作用。

mytcp_orphan_count表示整个tcp协议中待销毁的socket的个数(已无用的socket)，由mytcp_prot的成员orphan_count指向，也可以在/proc/net/sockstat文件中查看。

mysysctl_tcp_rmem是跟mysysctl_tcp_wmem相同结构的数组，表示接收缓冲区的大小限制，由mytcp_prot的成员 sysctl_rmem指向，其缺省值分别是4096bytes，87380bytes，174760bytes。它们可以通过/proc文件系统，在 /proc/sys/net/ipv4/tcp_rmem中进行修改。struct sock的成员sk_rcvbuf表示接收缓冲队列的大小，其初始值取mysysctl_tcp_rmem[1],成员sk_receive_queue 是接收缓冲队列，结构跟sk_write_queue相同。

tcp socket的发送缓冲队列跟接收缓冲队列的大小既可以通过/proc文件系统进行修改，也可以通过TCP选项操作进行修改。套接字级别上的选项 SO_RCVBUF可用于获取和修改接收缓冲队列的大小(即strcut sock->sk_rcvbuf的值)，比如下列的代码可用于获取当前系统的接收缓冲队列大小：

int rcvbuf_len;

int len = sizeof(rcvbuf_len);

if( getsockopt( fd, SOL_SOCKET, SO_RCVBUF, (void *)&rcvbuf_len, &len ) < 0 ){

perror("getsockopt: ");

return -1;

}

printf("the recevice buf len: %d\n", rcvbuf_len );

而套接字级别上的选项SO_SNDBUF则用于获取和修改发送缓冲队列的大小(即struct sock->sk_sndbuf的值)，代码同上，只需改SO_RCVBUF为SO_SNDBUF即可。

获取发送和接收缓冲区的大小相对简单一些，而设置的操作在内核中动作会稍微复杂一些，另外，在接口上也会有所差异，即由setsockopt传入的表示缓冲区大小的参数是实际大小的1/2，即，如果想要设发送缓冲区的大小为20K，则需要这样调用setsockopt：

int rcvbuf_len = 10 * 1024; //实际缓冲区大小的一半。

int len = sizeof(rcvbuf_len);

if( setsockopt( fd, SOL_SOCKET, SO_SNDBUF, (void *)&rcvbuf_len, len ) < 0 ){

perror("getsockopt: ");

return -1;

}

在内核中，首先内核要判断新设置的值是否超过上限，若超过，则取上限为新值，发送和接收缓冲区大小的上限值分别为sysctl_wmem_max和 sysctl_rmem_max的2倍。这两个全局变量的值是相等的，都为(sizeof(struct sk_buff) + 256) * 256，大概为64K负载数据，由于struct sk_buff的影响，实际发送和接收缓冲区的大小最大都可设到210K左右。它们的下限是2K,即缓冲区大小不能低于2K。

另外，SO_SNDBUF和SO_RCVBUF有一个特殊的版本：SO_SNDBUFFORCE和SO_RCVBUFFORCE，它们不受发送和接收缓冲区大小上限的限制，可设置不小于2K的任意缓冲区大小。(完)

===================================================

以下内容是Socket相关参数的设置方法

1. 如果在已经处于 ESTABLISHED状态下的socket(一般由端口号和标志符区分）调用

closesocket（一般不会立即关闭而经历TIME_WAIT的过程）后想继续重用该socket：

BOOL bReuseaddr=TRUE;

setsockopt(s,SOL_SOCKET ,SO_REUSEADDR,(const char*)&bReuseaddr,sizeof(BOOL));

2. 如果要已经处于连接状态的soket在调用closesocket后强制关闭，不经历

TIME_WAIT的过程：

BOOL bDontLinger = FALSE;

setsockopt(s,SOL_SOCKET,SO_DONTLINGER,(const char*)&bDontLinger,sizeof(BOOL));

3.在send(),recv()过程中有时由于网络状况等原因，发收不能预期进行,而设置收发时限：

int nNetTimeout=1000;//1秒

//发送时限

setsockopt(socket，SOL_S0CKET,SO_SNDTIMEO，(char *)&nNetTimeout,sizeof(int));

//接收时限

setsockopt(socket，SOL_S0CKET,SO_RCVTIMEO，(char *)&nNetTimeout,sizeof(int));

4.在send()的时候，返回的是实际发送出去的字节(同步)或发送到socket缓冲区的字节

(异步);系统默认的状态发送和接收一次为8688字节(约为8.5K)；在实际的过程中发送数据

和接收数据量比较大，可以设置socket缓冲区，而避免了send(),recv()不断的循环收发：

// 接收缓冲区

int nRecvBuf=32*1024;//设置为32K

setsockopt(s,SOL_SOCKET,SO_RCVBUF,(const char*)&nRecvBuf,sizeof(int));

//发送缓冲区

int nSendBuf=32*1024;//设置为32K

setsockopt(s,SOL_SOCKET,SO_SNDBUF,(const char*)&nSendBuf,sizeof(int));

5. 如果在发送数据的时，希望不经历由系统缓冲区到socket缓冲区的拷贝而影响

程序的性能：

int nZero=0;

setsockopt(socket，SOL_S0CKET,SO_SNDBUF，(char *)&nZero,sizeof(nZero));

6.同上在recv()完成上述功能(默认情况是将socket缓冲区的内容拷贝到系统缓冲区)：

int nZero=0;

setsockopt(socket，SOL_S0CKET,SO_RCVBUF，(char *)&nZero,sizeof(int));

7.一般在发送UDP数据报的时候，希望该socket发送的数据具有广播特性：

BOOL bBroadcast=TRUE;

setsockopt(s,SOL_SOCKET,SO_BROADCAST,(const char*)&bBroadcast,sizeof(BOOL));

8.在client连接服务器过程中，如果处于非阻塞模式下的socket在connect()的过程中可

以设置connect()延时,直到accpet()被呼叫(本函数设置只有在非阻塞的过程中有显著的

作用，在阻塞的函数调用中作用不大)

BOOL bConditionalAccept=TRUE;

setsockopt(s,SOL_SOCKET,SO_CONDITIONAL_ACCEPT,(const char*)&bConditionalAccept,sizeof(BOOL));

9.如果在发送数据的过程中(send()没有完成，还有数据没发送)而调用了closesocket(),以前我们

一般采取的措施是"从容关闭"shutdown(s,SD_BOTH),但是数据是肯定丢失了，如何设置让程序满足具体

应用的要求(即让没发完的数据发送出去后在关闭socket)？

struct linger {

u_short l_onoff;

u_short l_linger;

};

linger m_sLinger;

m_sLinger.l_onoff=1;//(在closesocket()调用,但是还有数据没发送完毕的时候容许逗留)

// 如果m_sLinger.l_onoff=0;则功能和2.)作用相同;

m_sLinger.l_linger=5;//(容许逗留的时间为5秒)

setsockopt(s,SOL_SOCKET,SO_LINGER,(const char*)&m_sLinger,sizeof(linger));

Note:1.在设置了逗留延时，用于一个非阻塞的socket是作用不大的，最好不用;

2.如果想要程序不经历SO_LINGER需要设置SO_DONTLINGER，或者设置l_onoff=0；

10.还一个用的比较少的是在SDI或者是Dialog的程序中，可以记录socket的调试信息：

(前不久做过这个函数的测试，调式信息可以保存，包括socket建立时候的参数,采用的

具体协议，以及出错的代码都可以记录下来）

BOOL bDebug=TRUE;

setsockopt(s,SOL_SOCKET,SO_DEBUG,(const char*)&bDebug,sizeof(BOOL));

11.附加：往往通过setsockopt()设置了缓冲区大小，但还不能满足数据的传输需求，

我的习惯是自己写个处理网络缓冲的类，动态分配内存;下面我将这个类写出，希望对

初学者有所帮助：

//仿照String 改写而成

//==============================================================================

// 二进制数据，主要用于收发网络缓冲区的数据

// CNetIOBuffer 以 MFC 类 CString 的源代码作为蓝本改写而成，用法与 CString 类似，

// 但是 CNetIOBuffer 中存放的是纯粹的二进制数据，'/0' 并不作为它的结束标志。

// 其数据长度可以通过 GetLength() 获得，缓冲区地址可以通过运算符 LPBYTE 获得。

//==============================================================================

// Module: NetObject

// File: SimpleIOBuffer.h

// Author: gdy119

// Email : 8751webmaster@126.com

// Date: 2004.11.26

//==============================================================================

// NetIOBuffer.h

#ifndef _NETIOBUFFER_H

#define _NETIOBUFFER_H

//=============================================================================

#define MAX_BUFFER_LENGTH 1024*1024

//=============================================================================

//主要用来处理网络缓冲的数据

class CNetIOBuffer

{

protected:

LPBYTE m_pbinData;

int m_nLength;

int m_nTotalLength;

CRITICAL_SECTIONm_cs;

void Initvalibers();

public:

CNetIOBuffer();

CNetIOBuffer(const LPBYTE lbbyte, int nLength);

CNetIOBuffer(const CNetIOBuffer&binarySrc);

virtual ~CNetIOBuffer();

//=============================================================================

BOOL CopyData(const LPBYTE lbbyte, int nLength);

BOOL ConcatData(const LPBYTE lbbyte, int nLength);

void ResetIoBuffer();

int GetLength() const;

BOOL SetLength(int nLen);

LPBYTE GetCurPos();

int GetRemainLen();

BOOL IsEmpty() const;

operator LPBYTE() const;

static GetMaxLength() { return MAX_BUFFER_LENGTH; }

const CNetIOBuffer& operator=(const CNetIOBuffer& buffSrc);

};

#endif //

// NetOBuffer.cpp: implementation of the CNetIOBuffer class.

//======================================================================

#include "stdafx.h"

#include "NetIOBuffer.h"

//======================================================================

//=======================================================================

// Construction/Destruction

CNetIOBuffer::CNetIOBuffer()

{

Initvalibers();

}

CNetIOBuffer::CNetIOBuffer(const LPBYTE lbbyte, int nLength)

{

Initvalibers();

CopyData(lbbyte, nLength);

}

CNetIOBuffer::~CNetIOBuffer()

{

delete []m_pbinData;

m_pbinData=NULL;

DeleteCriticalSection(&m_cs);

}

CNetIOBuffer::CNetIOBuffer(const CNetIOBuffer&binarySrc)

{

Initvalibers();

CopyData(binarySrc,binarySrc.GetLength());

}

void CNetIOBuffer::Initvalibers()

{

m_pbinData = NULL;

m_nLength = 0;

m_nTotalLength = MAX_BUFFER_LENGTH;

if(m_pbinData==NULL)

{

m_pbinData=new BYTE[m_nTotalLength];

ASSERT(m_pbinData!=NULL);

}

InitializeCriticalSection(&m_cs);

}

void CNetIOBuffer::ResetIoBuffer()

{

EnterCriticalSection(&m_cs);

m_nLength = 0;

memset(m_pbinData,0,m_nTotalLength);

LeaveCriticalSection(&m_cs);

}

BOOL CNetIOBuffer::CopyData(const LPBYTE lbbyte, int nLength)

{

if( nLength > MAX_BUFFER_LENGTH )

return FALSE;

ResetIoBuffer();

EnterCriticalSection(&m_cs);

memcpy(m_pbinData, lbbyte, nLength );

m_nLength = nLength;

LeaveCriticalSection(&m_cs);

return TRUE;

}

BOOL CNetIOBuffer::ConcatData(const LPBYTE lbbyte, int nLength)

{

if( m_nLength + nLength > MAX_BUFFER_LENGTH )

return FALSE;

EnterCriticalSection(&m_cs);

memcpy(m_pbinData+m_nLength, lbbyte, nLength );

m_nLength += nLength;

LeaveCriticalSection(&m_cs);

return TRUE;

}

int CNetIOBuffer::GetLength() const

{

return m_nLength;

}

BOOL CNetIOBuffer::SetLength(int nLen)

{

if( nLen > MAX_BUFFER_LENGTH )

return FALSE;

EnterCriticalSection(&m_cs);

m_nLength = nLen;

LeaveCriticalSection(&m_cs);

return TRUE;

}

LPBYTE CNetIOBuffer::GetCurPos()

{

if( m_nLength < MAX_BUFFER_LENGTH )

return (m_pbinData+m_nLength);

else

return NULL;

}

CNetIOBuffer:: operator LPBYTE() const

{

return m_pbinData;

}

int CNetIOBuffer::GetRemainLen()

{

return MAX_BUFFER_LENGTH - m_nLength;

}

BOOL CNetIOBuffer::IsEmpty() const

{

return m_nLength == 0;

}

const CNetIOBuffer& CNetIOBuffer:: operator=(const CNetIOBuffer& buffSrc)

{

if(&buffSrc!=this)

{

CopyData(buffSrc, buffSrc.GetLength());

}

return *this;

}

回复人： PiggyXP(【小猪】●至爱VC，至爱网络版●) ( ) 信誉：204

其实我觉得第5条很应该值得注意

int nZero=0;

setsockopt(socket，SOL_S0CKET,SO_SNDBUF，(char *)&nZero,sizeof(nZero));

记得以前有些朋友讨论过，socket虽然send成功了，但是其实只是发送到数据缓冲区里面了，而并没有真正的在物理设备上发送出去；而通过这条语句，将发送缓冲区设置为0，即屏蔽掉发送缓冲以后，一旦send返回（当然是就阻塞套结字来说），就可以肯定数据已经在发送的途中了^_^，但是这样做也许会影响系统的性能

to:Sander()

UDP也有拷贝过程，但是UDP包有最大限制为64K；

TCP_NODELAY 一般用在the normal data stream 上；

12.发送数据时候一般是系统缓冲区满以后才发送，现在设置为只要系统

缓冲区有数据就立刻发送：

BOOL bNodelay=TRUE;

SetSockOpt(s,IPPROTO_TCP,TCP_NODELAY,(const char*)&bNodelayt,sizeof(BOOL));

posted @ 2015-09-26 22:38 Uncle_Nucky 阅读(5581) 评论(0) 收藏举报

刷新页面返回顶部

Uncle Nucky

socket接收发送缓冲区