A. linux tcp 通過setsockopt設置接收緩存區有什麼用
Socket的send函數在執行時報EAGAIN的錯誤
當客戶通過Socket提供的send函數發送大的數據包時,就可能返回一個EGGAIN的錯誤。該錯誤產生的原因是由於send 函數中的size變數大小超過了tcp_sendspace的值。tcp_sendspace定義了應用在調用send之前能夠在kernel中緩存的數據量。當應用程序在socket中設置了O_NDELAY或者O_NONBLOCK屬性後,如果發送緩存被占滿,send就會返回EAGAIN的錯誤。
為了消除該錯誤,有三種方法可以選擇:
1.調大tcp_sendspace,使之大於send中的size參數
---no -p -o tcp_sendspace=65536
2.在調用send前,在setsockopt函數中為SNDBUF設置更大的值
3.使用write替代send,因為write沒有設置O_NDELAY或者O_NONBLOCK
1. tcp 收發緩沖區默認值
[root@qljt core]# cat /proc/sys/net/ipv4/tcp_rmem
4096 87380 4161536
87380 :tcp接收緩沖區的默認值
[root@qljt core]# cat /proc/sys/net/ipv4/tcp_wmem
4096 16384 4161536
16384 : tcp 發送緩沖區的默認值
2. tcp 或udp收發緩沖區最大值
[root@qljt core]# cat /proc/sys/net/core/rmem_max
131071
131071:tcp 或 udp 接收緩沖區最大可設置值的一半。
也就是說調用 setsockopt(s, SOL_SOCKET, SO_RCVBUF, &rcv_size, &optlen); 時rcv_size 如果超過 131071,那麼
getsockopt(s, SOL_SOCKET, SO_RCVBUF, &rcv_size, &optlen); 去到的值就等於 131071 * 2 = 262142
[root@qljt core]# cat /proc/sys/net/core/wmem_max
131071
131071:tcp 或 udp 發送緩沖區最大可設置值得一半。
跟上面同一個道理
3. udp收發緩沖區默認值
[root@qljt core]# cat /proc/sys/net/core/rmem_default
111616:udp接收緩沖區的默認值
[root@qljt core]# cat /proc/sys/net/core/wmem_default
111616
111616:udp發送緩沖區的默認值
. tcp 或udp收發緩沖區最小值
tcp 或udp接收緩沖區的最小值為 256 bytes,由內核的宏決定;
tcp 或udp發送緩沖區的最小值為 2048 bytes,由內核的宏決定
setsockopt設置socket狀態
1.closesocket(一般不會立即關閉而經歷TIME_WAIT的過程)後想繼續重用該socket:
BOOL bReuseaddr=TRUE;
setsockopt(s,SOL_SOCKET ,SO_REUSEADDR,(const char*)&bReuseaddr,sizeof(BOOL));
2. 如果要已經處於連接狀態的soket在調用closesocket後強制關閉,不經歷TIME_WAIT的過程:
BOOL bDontLinger = FALSE;
setsockopt(s,SOL_SOCKET,SO_DONTLINGER,(const char*)&bDontLinger,sizeof(BOOL));
3.在send(),recv()過程中有時由於網路狀況等原因,發收不能預期進行,而設置收發時限:
int nNetTimeout=1000;//1秒
//發送時限
setsockopt(socket,SOL_S0CKET,SO_SNDTIMEO,(char *)&nNetTimeout,sizeof(int));
//接收時限
setsockopt(socket,SOL_S0CKET,SO_RCVTIMEO,(char *)&nNetTimeout,sizeof(int));
4.在send()的時候,返回的是實際發送出去的位元組(同步)或發送到socket緩沖區的位元組(非同步);系統默認的狀態發送和接收一次為8688位元組(約為8.5K);在實際的過程中發送數據
和接收數據量比較大,可以設置socket緩沖區,而避免了send(),recv()不斷的循環收發:
// 接收緩沖區
int nRecvBuf=32*1024;//設置為32K
setsockopt(s,SOL_SOCKET,SO_RCVBUF,(const char*)&nRecvBuf,sizeof(int));
//發送緩沖區
int nSendBuf=32*1024;//設置為32K
setsockopt(s,SOL_SOCKET,SO_SNDBUF,(const char*)&nSendBuf,sizeof(int));
5. 如果在發送數據的時,希望不經歷由系統緩沖區到socket緩沖區的拷貝而影響程序的性能:
int nZero=0;
setsockopt(socket,SOL_S0CKET,SO_SNDBUF,(char *)&nZero,sizeof(nZero));
6.同上在recv()完成上述功能(默認情況是將socket緩沖區的內容拷貝到系統緩沖區):
int nZero=0;
setsockopt(socket,SOL_S0CKET,SO_RCVBUF,(char *)&nZero,sizeof(int));
7.一般在發送UDP數據報的時候,希望該socket發送的數據具有廣播特性:
BOOL bBroadcast=TRUE;
setsockopt(s,SOL_SOCKET,SO_BROADCAST,(const char*)&bBroadcast,sizeof(BOOL));
8.在client連接伺服器過程中,如果處於非阻塞模式下的socket在connect()的過程中可以設置connect()延時,直到accpet()被呼叫(本函數設置只有在非阻塞的過程中有顯著的
作用,在阻塞的函數調用中作用不大)
BOOL bConditionalAccept=TRUE;
setsockopt(s,SOL_SOCKET,SO_CONDITIONAL_ACCEPT,(const char*)&bConditionalAccept,sizeof(BOOL));
9.如果在發送數據的過程中(send()沒有完成,還有數據沒發送)而調用了closesocket(),以前我們一般採取的措施是"從容關閉"shutdown(s,SD_BOTH),但是數據是肯定丟失了,如何設置讓程序滿足具體應用的要求(即讓沒發完的數據發送出去後在關閉socket)?
struct linger {
u_short l_onoff;
u_short l_linger;
};
linger m_sLinger;
m_sLinger.l_onoff=1;//(在closesocket()調用,但是還有數據沒發送完畢的時候容許逗留)
// 如果m_sLinger.l_onoff=0;則功能和2.)作用相同;
m_sLinger.l_linger=5;//(容許逗留的時間為5秒)
setsockopt(s,SOL_SOCKET,SO_LINGER,(const char*)&m_sLinger,sizeof(linger));
設置套介面的選項。
#include <winsock.h>
int PASCAL FAR setsockopt( SOCKET s, int level, int optname,
const char FAR* optval, int optlen);
s:標識一個套介面的描述字。
level:選項定義的層次;目前僅支持SOL_SOCKET和IPPROTO_TCP層次。
optname:需設置的選項。
optval:指針,指向存放選項值的緩沖區。
optlen:optval緩沖區的長度。
注釋:
setsockopt()函數用於任意類型、任意狀態套介面的設置選項值。盡管在不同協議層上存在選項,但本函數僅定義了最高的「套介面」層次上的選項。選項影響套介面的操作,諸如加急數據是否在普通數據流中接收,廣播數據是否可以從套介面發送等等。
有兩種套介面的選項:一種是布爾型選項,允許或禁止一種特性;另一種是整形或結構選項。允許一個布爾型選項,則將optval指向非零整形數;禁止一個選項optval指向一個等於零的整形數。對於布爾型選項,optlen應等於sizeof(int);對其他選項,optval指向包含所需選項的整形數或結構,而optlen則為整形數或結構的長度。SO_LINGER選項用於控制下述情況的行動:套介面上有排隊的待發送數據,且 closesocket()調用已執行。參見closesocket()函數中關於SO_LINGER選項對closesocket()語義的影響。應用程序通過創建一個linger結構來設置相應的操作特性:
struct linger {
int l_onoff;
int l_linger;
};
為了允許SO_LINGER,應用程序應將l_onoff設為非零,將l_linger設為零或需要的超時值(以秒為單位),然後調用setsockopt()。為了允許SO_DONTLINGER(亦即禁止SO_LINGER),l_onoff應設為零,然後調用setsockopt()。
預設條件下,一個套介面不能與一個已在使用中的本地地址捆綁(參見bind())。但有時會需要「重用」地址。因為每一個連接都由本地地址和遠端地址的組合唯一確定,所以只要遠端地址不同,兩個套介面與一個地址捆綁並無大礙。為了通知WINDOWS套介面實現不要因為一個地址已被一個套介面使用就不讓它與另一個套介面捆綁,應用程序可在bind()調用前先設置SO_REUSEADDR選項。請注意僅在bind()調用時該選項才被解釋;故此無需(但也無害)將一個不會共用地址的套介面設置該選項,或者在bind()對這個或其他套介面無影響情況下設置或清除這一選項。
一個應用程序可以通過打開SO_KEEPALIVE選項,使得WINDOWS套介面實現在TCP連接情況下允許使用「保持活動」包。一個WINDOWS套介面實現並不是必需支持「保持活動」,但是如果支持的話,具體的語義將與實現有關,應遵守RFC1122「Internet主機要求-通訊層」中第 4.2.3.6節的規范。如果有關連接由於「保持活動」而失效,則進行中的任何對該套介面的調用都將以WSAENETRESET錯誤返回,後續的任何調用將以WSAENOTCONN錯誤返回。
TCP_NODELAY選項禁止Nagle演算法。Nagle演算法通過將未確認的數據存入緩沖區直到蓄足一個包一起發送的方法,來減少主機發送的零碎小數據包的數目。但對於某些應用來說,這種演算法將降低系統性能。所以TCP_NODELAY可用來將此演算法關閉。應用程序編寫者只有在確切了解它的效果並確實需要的情況下,才設置TCP_NODELAY選項,因為設置後對網路性能有明顯的負面影響。TCP_NODELAY是唯一使用IPPROTO_TCP層的選項,其他所有選項都使用SOL_SOCKET層。
如果設置了SO_DEBUG選項,WINDOWS套介面供應商被鼓勵(但不是必需)提供輸出相應的調試信息。但產生調試信息的機制以及調試信息的形式已超出本規范的討論范圍。
setsockopt()支持下列選項。其中「類型」表明optval所指數據的類型。
選項 類型 意義
SO_BROADCAST BOOL 允許套介面傳送廣播信息。
SO_DEBUG BOOL 記錄調試信息。
SO_DONTLINER BOOL 不要因為數據未發送就阻塞關閉操作。設置本選項相當於將SO_LINGER的l_onoff元素置為零。
SO_DONTROUTE BOOL 禁止選徑;直接傳送。
SO_KEEPALIVE BOOL 發送「保持活動」包。
SO_LINGER struct linger FAR* 如關閉時有未發送數據,則逗留。
SO_OOBINLINE BOOL 在常規數據流中接收帶外數據。
SO_RCVBUF int 為接收確定緩沖區大小。
SO_REUSEADDR BOOL 允許套介面和一個已在使用中的地址捆綁(參見bind())。
SO_SNDBUF int 指定發送緩沖區大小。
TCP_NODELAY BOOL 禁止發送合並的Nagle演算法。
setsockopt()不支持的BSD選項有:
選項名 類型 意義
SO_ACCEPTCONN BOOL 套介面在監聽。
SO_ERROR int 獲取錯誤狀態並清除。
SO_RCVLOWAT int 接收低級水印。
SO_RCVTIMEO int 接收超時。
SO_SNDLOWAT int 發送低級水印。
SO_SNDTIMEO int 發送超時。
SO_TYPE int 套介面類型。
IP_OPTIONS 在IP頭中設置選項。
返回值:
若無錯誤發生,setsockopt()返回0。否則的話,返回SOCKET_ERROR錯誤,應用程序可通過WSAGetLastError()獲取相應錯誤代碼。
錯誤代碼:
WSANOTINITIALISED:在使用此API之前應首先成功地調用WSAStartup()。
WSAENETDOWN:WINDOWS套介面實現檢測到網路子系統失效。
WSAEFAULT:optval不是進程地址空間中的一個有效部分。
WSAEINPROGRESS:一個阻塞的WINDOWS套介面調用正在運行中。
WSAEINVAL:level值非法,或optval中的信息非法。
WSAENETRESET:當SO_KEEPALIVE設置後連接超時。
WSAENOPROTOOPT:未知或不支持選項。其中,SOCK_STREAM類型的套介面不支持SO_BROADCAST選項,SOCK_DGRAM 類型的套介面不支持SO_DONTLINGER 、SO_KEEPALIVE、SO_LINGER和SO_OOBINLINE選項。
WSAENOTCONN:當設置SO_KEEPALIVE後連接被復位。
WSAENOTSOCK:描述字不是一個套介面。
B. TCP之Nagle、Cork、Delay ACK(延遲確認)
[TOC]
TCP協議中的Nagle演算法
TCP中的Nagle演算法
Linux下TCP延遲確認(Delayed Ack)機制導致的時延問題分析
TCP-IP詳解:Delay ACK
Nagle演算法為了避免網路中存在太多的小數據包,盡可能發送大的數據包。定義為在任意時刻,最多隻有一個未被確認的小段。小段為小於MSS尺寸的數據塊,未被確認是指數據發出去後未收到對端的ack。
Nagle演算法是在網速較慢的時代的產物,目前的網路環境已經不太需要該機制,該演算法在linux系統中默認關閉。
1)如果包長度達到MSS,則允許發送;
2)如果該包含有FIN,則允許發送;
3)設置了TCP_NODELAY選項,則允許發送;
4)未設置TCP_CORK選項時,若所有發出去的包均被確認,或所有發出去的小數據包(包長度小於MSS)均被確認,則允許發送。
對於規則4),就是說要求一個TCP連接上最多隻能有一個未被確認的小數據包,在該分組的確認到達之前,不能發送其他的小數據包。如果某個小分組的確認被延遲了(案例中的40ms),那麼後續小分組的發送就會相應的延遲。也就是說延遲確認影響的並不是被延遲確認的那個數據包,而是後續的應答包。
tcp默認使用nagle演算法,最大限度的進行緩存。
優點 :避免網路中充斥著許多小數據塊,降低網路負載,減少網路擁塞,提高網路吞吐
缺點 :客戶端的延遲會增加,實時性降低,不適合延時要求盡量小的場景;且對於大文件傳輸這種場景,會降低傳輸速度。
用TCP_NODELAY選項可以禁止Negale 演算法。此時,應用程序向內核遞交的每個數據包都會立即發送出去。需要注意的是,雖然禁止了Negale 演算法,但網路的傳輸仍然受到TCP確認延遲機制的影響。
TCP在接收到對端的報文後,並不會立即發送ack,而是等待一段時間發送ack,以便將ack和要發送的數據一塊發送。當然ack不能無限延長,否則對端會認為包超時而造成報文重傳。linux採用動態調節演算法來確定延時的時間。
TCP在何時發送ACK的時候有如下規定:
優點 :減少了數據段的個數,提高了發送效率
缺點 :過多的delay會拉長RTT(往返時延)
可以通過TCP_QUICKACK這個選項來啟動快速ACK:
所謂的CORK就是塞子的意思,形象地理解就是用CORK將連接塞住,使得數據先不發出去,等到拔去塞子後再發出去。Cork演算法與Nagle演算法類似,也有人把Cork演算法稱呼為super-Nagle。Nagle演算法提出的背景是網路因為大量小包小包而導致利用率低下產生網路擁塞,網路發生擁塞的時候性能還會進一步下降,因此Nagle演算法通過ACK確認包來觸發新數據包的發送(ACK確認包意味著對端已經接收到了一個數據包,即有一個數據包已經離開中間網路,此時可以在向中間網路注入一個數據包塊,這稱呼為self-clocking)。Cork演算法則更為激進,一旦打開Cork演算法,TCP不關注是否有收到ACK報文,只要當前緩存中累積的數據量不足以組成一個full-sized數據包就不會將數據包發出,直到一個RTO超時後才會把不滿足一個full-sized的數據包發出去(實際上是通過一個persist timer來設置的這個RTO定時時間,persist timer超時的時候就會強制發送)。
linux中可以通過TCP_CORK選項來設置socket打開Cork演算法。TCP_NODELAY選項和TCP_CORK選項在linux早期版本是互斥的,但目前最新的linux版本已經可以同時打開這兩個選項了,但是TCP_CORK選項的優先順序要比TCP_NODELAY選項的優先順序要高。
Nagle演算法和CORK演算法非常類似,但是它們的著眼點不一樣,Nagle演算法主要避免網路因為太多的小包(協議頭的比例非常之大)而擁塞,而CORK演算法則是為了提高網路的利用率,使得總體上協議頭佔用的比例盡可能的小.如此看來這二者在避免發送小包上是一致的,在用戶控制的層面上,Nagle演算法完全不受用戶socket的控制,你只能簡單的設置TCP_NODELAY而禁用它,CORK演算法同樣也是通過設置或者清除TCP_CORK使能或者禁用之,然而Nagle演算法關心的是網路擁塞問題,只要所有的ACK回來則發包,而CORK演算法卻只關心內容,在前後數據包發送間隔很短的前提下(很重要,否則內核會幫你將分散的包發出),即使你是分散發送多個小數據包,你也可以通過使能CORK演算法將這些內容拼接在一個包內,如果此時用Nagle演算法的話,則可能做不到這一點.
優點 :提高網路的利用率
缺點 :對實時性有影響
使用TCP_CORK參數進行配置