高效能網路優化技術完整指南

核心概念

記憶體空間

使用者空間（User Space）：應用程式執行的記憶體區域
核心空間（Kernel Space）：作業系統核心執行的記憶體區域
上下文切換（Context Switch）：CPU 在使用者模式和核心模式之間切換

傳統網路 I/O 問題

多次資料複製：網卡 → 核心緩衝區 → 使用者緩衝區
上下文切換開銷：每次系統呼叫都需要切換
中斷處理開銷：每個封包都可能觸發中斷
記憶體頻寬消耗：資料在記憶體間多次移動

零拷貝技術

1. sendfile()

#include <sys/sendfile.h>

// 直接從檔案傳送到 socket，無需使用者空間參與
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

優點：

減少 2 次資料複製
減少上下文切換
適合靜態檔案服務

2. splice()

#include <fcntl.h>

// 在兩個檔案描述符之間移動資料
ssize_t splice(int fd_in, loff_t *off_in, int fd_out,
               loff_t *off_out, size_t len, unsigned int flags);

使用場景：

代理伺服器
管道資料傳輸

3. mmap()

#include <sys/mman.h>

// 將檔案映射到記憶體
void *mmap(void *addr, size_t length, int prot, int flags,
           int fd, off_t offset);

特點：

虛擬記憶體映射
懶載入（Lazy Loading）
適合大檔案處理

4. MSG_ZEROCOPY

// Linux 4.14+ 支援
int enable = 1;
setsockopt(fd, SOL_SOCKET, SO_ZEROCOPY, &enable, sizeof(enable));

// 使用 MSG_ZEROCOPY flag
send(fd, buffer, length, MSG_ZEROCOPY);

5. io_uring

#include <liburing.h>

struct io_uring ring;
io_uring_queue_init(QUEUE_DEPTH, &ring, 0);

// 提交 I/O 請求
struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
io_uring_prep_readv(sqe, fd, iovecs, nr_vecs, offset);
io_uring_submit(&ring);

優勢：

異步 I/O
批次處理
減少系統呼叫

核心旁路技術

1. DPDK (Data Plane Development Kit)

架構特點：

輪詢模式驅動（PMD）
大頁記憶體（Hugepages）
CPU 親和性（CPU Affinity）
無鎖資料結構

#include <rte_eal.h>
#include <rte_ethdev.h>

// 初始化 DPDK
rte_eal_init(argc, argv);

// 接收封包
uint16_t nb_rx = rte_eth_rx_burst(port_id, queue_id, 
                                   rx_pkts, MAX_PKT_BURST);

// 處理封包
for (int i = 0; i < nb_rx; i++) {
    process_packet(rx_pkts[i]);
}

// 傳送封包
uint16_t nb_tx = rte_eth_tx_burst(port_id, queue_id,
                                   tx_pkts, nb_pkts);

2. RDMA (Remote Direct Memory Access)

協議類型：

InfiniBand：高效能運算
RoCE (RDMA over Converged Ethernet)：資料中心
iWARP：廣域網路

#include <rdma/rdma_cma.h>

// 建立 RDMA 連線
struct rdma_cm_id *id;
rdma_create_id(event_channel, &id, NULL, RDMA_PS_TCP);

// 註冊記憶體區域
struct ibv_mr *mr = ibv_reg_mr(pd, buffer, size, 
                                IBV_ACCESS_LOCAL_WRITE | 
                                IBV_ACCESS_REMOTE_WRITE);

// RDMA 寫入
struct ibv_send_wr wr = {
    .opcode = IBV_WR_RDMA_WRITE,
    .sg_list = &sge,
    .num_sge = 1,
};

3. XDP (eXpress Data Path)

#include <linux/bpf.h>
#include <bpf/bpf_helpers.h>

SEC("xdp")
int xdp_prog(struct xdp_md *ctx) {
    void *data_end = (void *)(long)ctx->data_end;
    void *data = (void *)(long)ctx->data;
    
    struct ethhdr *eth = data;
    if ((void *)(eth + 1) > data_end)
        return XDP_DROP;
    
    // 封包處理邏輯
    if (should_drop_packet(eth))
        return XDP_DROP;
    
    return XDP_PASS;
}

4. AF_XDP

#include <linux/if_xdp.h>

// 建立 AF_XDP socket
int xsk_fd = socket(AF_XDP, SOCK_RAW, 0);

// 設定 UMEM (User Memory)
struct xdp_umem_reg mr = {
    .addr = buffer,
    .len = buffer_size,
    .chunk_size = XSK_UMEM__DEFAULT_FRAME_SIZE,
};
setsockopt(xsk_fd, SOL_XDP, XDP_UMEM_REG, &mr, sizeof(mr));

其他高效能網路技術

1. RSS (Receive Side Scaling)

# 設定網卡多佇列
ethtool -L eth0 combined 8

# 設定 RSS
ethtool -X eth0 equal 8

2. RPS/RFS (Receive Packet Steering/Flow Steering)

# 啟用 RPS
echo "ff" > /sys/class/net/eth0/queues/rx-0/rps_cpus

# 設定 RFS
echo 32768 > /proc/sys/net/core/rps_sock_flow_entries

3. TSO/GSO (TCP Segmentation Offload)

# 啟用 TSO
ethtool -K eth0 tso on

# 啟用 GSO
ethtool -K eth0 gso on

4. NAPI (New API)

中斷與輪詢混合模式
動態調整處理策略
減少中斷風暴

5. 智慧網卡（Smart NIC）

功能卸載：

封包分類
加密/解密
壓縮/解壓縮
協議處理

代表產品：

Mellanox BlueField
Intel IPU (Infrastructure Processing Unit)
NVIDIA ConnectX

實作範例

高效能 HTTP 伺服器配置

Nginx 零拷貝配置：

http {
    sendfile on;
    tcp_nopush on;
    tcp_nodelay on;
    
    # 啟用 aio
    aio threads;
    directio 512k;
    
    # 使用 io_uring (Nginx 1.19+)
    aio io_uring;
}

DPDK 簡單轉發應用

static inline void
forward_packets(uint16_t port_id) {
    struct rte_mbuf *pkts_burst[MAX_PKT_BURST];
    uint16_t nb_rx, nb_tx;
    
    // 接收封包
    nb_rx = rte_eth_rx_burst(port_id, 0, pkts_burst, MAX_PKT_BURST);
    
    // 修改封包（如需要）
    for (int i = 0; i < nb_rx; i++) {
        modify_packet(pkts_burst[i]);
    }
    
    // 轉發封包
    nb_tx = rte_eth_tx_burst(port_id ^ 1, 0, pkts_burst, nb_rx);
    
    // 釋放未傳送的封包
    if (unlikely(nb_tx < nb_rx)) {
        for (uint16_t i = nb_tx; i < nb_rx; i++) {
            rte_pktmbuf_free(pkts_burst[i]);
        }
    }
}

效能測試與調優

測試工具

網路效能測試：

iperf3：頻寬測試
netperf：延遲和吞吐量
sockperf：Socket 效能
pktgen：封包產生器

系統監控：

# CPU 使用率
mpstat -P ALL 1

# 中斷統計
watch -n 1 cat /proc/interrupts

# 網路統計
netstat -s
ss -s

# 封包統計
ethtool -S eth0

核心參數調優

# /etc/sysctl.conf

# 網路緩衝區
net.core.rmem_max = 134217728
net.core.wmem_max = 134217728
net.ipv4.tcp_rmem = 4096 87380 134217728
net.ipv4.tcp_wmem = 4096 65536 134217728

# 連線佇列
net.core.netdev_max_backlog = 5000
net.ipv4.tcp_max_syn_backlog = 8192

# TIME_WAIT 優化
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_fin_timeout = 30

# 啟用 BBR
net.core.default_qdisc = fq
net.ipv4.tcp_congestion_control = bbr

CPU 親和性設定

# 隔離 CPU 核心
isolcpus=2,3,4,5

# 綁定中斷
echo 2 > /proc/irq/24/smp_affinity

# 綁定程序
taskset -c 2-5 ./application

最佳實踐

選擇合適的技術

場景	建議技術	原因
Web 伺服器	sendfile + 零拷貝	平衡效能與複雜度
代理伺服器	splice + io_uring	高效轉發
金融交易	DPDK/RDMA	極低延遲需求
CDN 節點	XDP + 智慧網卡	線速處理
資料庫	RDMA + 持久記憶體	高吞吐量存取
視訊串流	零拷貝 + TSO	大量資料傳輸