1. 預備知識

1.1. 網絡位元組序

我們已經知道,內存中的多位元組數據相對於內存地址有大端和小端之分,磁碟檔案中的多位元組數據相對於檔案中的偏移地址也有大端小端之分。網絡數據流同樣有大端小端之分,那麼如何定義網絡數據流的地址呢?發送主機通常將發送緩衝區中的數據按內存地址從低到高的順序發出,接收主機把從網絡上接到的位元組依次保存在接收緩衝區中,也是按內存地址從低到高的順序保存,因此,網絡數據流的地址應這樣規定:先發出的數據是低地址,後發出的數據是高地址。

TCP/IP協議規定,網絡數據流應採用大端位元組序,即低地址高位元組。例如上一節的UDP段格式,地址0-1是16位的源連接埠號,如果這個連接埠號是1000(0x3e8),則地址0是0x03,地址1是0xe8,也就是先發0x03,再發0xe8,這16位在發送主機的緩衝區中也應該是低地址存0x03,高地址存0xe8。但是,如果發送主機是小端位元組序的,這16位被解釋成0xe803,而不是1000。因此,發送主機把1000填到發送緩衝區之前需要做位元組序的轉換。同樣地,接收主機如果是小端位元組序的,接到16位的源連接埠號也要做位元組序的轉換。如果主機是大端位元組序的,發送和接收都不需要做轉換。同理,32位的IP地址也要考慮網絡位元組序和主機位元組序的問題。

為使網絡程序具有可移植性,使同樣的C代碼在大端和小端計算機上編譯後都能正常運行,可以調用以下庫函數做網絡位元組序和主機位元組序的轉換。

#include <arpa/inet.h>

uint32_t htonl(uint32_t hostlong);
uint16_t htons(uint16_t hostshort);
uint32_t ntohl(uint32_t netlong);
uint16_t ntohs(uint16_t netshort);

這些函數名很好記,h表示host,n表示network,l表示32位長整數,s表示16位短整數。例如htonl表示將32位的長整數從主機位元組序轉換為網絡位元組序,例如將IP地址轉換後準備發送。如果主機是小端位元組序,這些函數將參數做相應的大小端轉換然後返回,如果主機是大端位元組序,這些函數不做轉換,將參數原封不動地返回。

1.2. socket地址的數據類型及相關函數

socket API是一層抽象的網絡編程介面,適用於各種底層網絡協議,如IPv4、IPv6,以及後面要講的UNIX Domain Socket。然而,各種網絡協議的地址格式並不相同,如下圖所示:

圖 37.1. sockaddr資料結構

sockaddr資料結構

IPv4和IPv6的地址格式定義在netinet/in.h中,IPv4地址用sockaddr_in結構體表示,包括16位連接埠號和32位IP地址,IPv6地址用sockaddr_in6結構體表示,包括16位連接埠號、128位IP地址和一些控制欄位。UNIX Domain Socket的地址格式定義在sys/un.h中,用sockaddr_un結構體表示。各種socket地址結構體的開頭都是相同的,前16位表示整個結構體的長度(並不是所有UNIX的實現都有長度欄位,如Linux就沒有),後16位表示地址類型。IPv4、IPv6和UNIX Domain Socket的地址類型分別定義為常數AF_INET、AF_INET6、AF_UNIX。這樣,只要取得某種sockaddr結構體的首地址,不需要知道具體是哪種類型的sockaddr結構體,就可以根據地址類型欄位確定結構體中的內容。因此,socket API可以接受各種類型的sockaddr結構體指針做參數,例如bind、accept、connect等函數,這些函數的參數應該設計成void *類型以便接受各種類型的指針,但是sock API的實現早于ANSI C標準化,那時還沒有void *類型,因此這些函數的參數都用struct sockaddr *類型表示,在傳遞參數之前要強制類型轉換一下,例如:

struct sockaddr_in servaddr;
/* initialize servaddr */
bind(listen_fd, (struct sockaddr *)&servaddr, sizeof(servaddr));

本節只介紹基于IPv4的socket網絡編程,sockaddr_in中的成員struct in_addr sin_addr表示32位的IP地址。但是我們通常用點分十進制的字元串表示IP地址,以下函數可以在字元串表示和in_addr表示之間轉換。

字元串轉in_addr的函數:

#include <arpa/inet.h>

int inet_aton(const char *strptr, struct in_addr *addrptr);
in_addr_t inet_addr(const char *strptr);
int inet_pton(int family, const char *strptr, void *addrptr);

in_addr轉字元串的函數:

char *inet_ntoa(struct in_addr inaddr);
const char *inet_ntop(int family, const void *addrptr, char *strptr, size_t len);

其中inet_pton和inet_ntop不僅可以轉換IPv4的in_addr,還可以轉換IPv6的in6_addr,因此函數介面是void *addrptr。