高頻交易系統：作業系統效能調校實踐

背景介紹

高頻量化交易（HFT）是一場發生在奈秒(Nanosecond, ns)尺度上的戰爭。當傳統交易系統還在以毫秒(Millisecond, ms)為單位衡量效能時，HFT系統必須在微秒(Microsecond, μs)乃至奈秒(ns)級別進行競爭。這意味著任何微小的作業系統開銷或硬體資源爭用，都可能導致關鍵訂單流處理延遲，從而錯失最佳成交價或在訂單佇列中落後。

💡 白話解釋：想像你在搶演唱會門票，別人按下購買鍵到完成交易需要1秒，而你的系統優化到只需0.001秒。在高頻交易世界，這種速度差異就是賺錢與賠錢的差別。1毫秒=1000微秒=1,000,000奈秒，高頻交易就是在爭奪這些極微小的時間優勢。

核心挑戰

核心挑戰在於馴服作業系統和硬體平臺，消除其引入的非確定性和額外延遲：

作業系統排程不確定性：預設的完全公平排程(CFS)策略可能導致低延遲關鍵行程被背景任務（如日誌、監控）或核心執行緒（如 ksoftirqd, kworker）搶佔，引入不可預測的微秒級甚至毫秒級停頓。

💡 白話解釋：就像你正在專心打電競，突然電腦決定要更新防毒軟體，導致遊戲卡頓。CFS就像一個「公平」的老師，要求每個程式都有機會使用CPU，但對時間敏感的交易程式來說，這種「公平」反而是災難。
硬體資源爭用：超執行緒(Hyper-Threading, HT)使得邏輯核心共享實體執行單元，兄弟執行緒的計算密集型任務（如使用AVX指令）會阻塞交易執行緒；多個核心爭用共享的末級快取(L3 Cache)，導致快取行失效和更高的記憶體存取延遲。

💡 白話解釋：超執行緒就像一個廚房（實體核心）裡有兩個廚師（邏輯核心）共用同一套爐具。當一個廚師在煎牛排（重計算），另一個想快速煮個蛋（交易任務）就得等待。L3快取則像共用冰箱，太多人同時存取會互相干擾。
NUMA架構影響：在非統一記憶體存取(NUMA)架構的多路伺服器上，跨節點(Remote Node)存取記憶體的延遲可能比本地節點(Local Node)高出50%甚至更多。

💡 白話解釋：NUMA就像一棟有多個廚房的大樓，每個廚房都有自己的冰箱（本地記憶體）。如果你在2樓廚房卻要去1樓拿食材，比在自己樓層拿慢很多。
傳統I/O瓶頸：核心網路協定堆疊處理網路封包需要多次上下文切換、資料拷貝和協定解析，單次處理耗時輕鬆超過10μs，成為延遲大戶。

💡 白話解釋：傳統網路處理像郵局收發信，信件要經過收件、分類、蓋章、派送等多個步驟。每個步驟都要排隊等待，整體耗時很長。

最佳化目標

透過本文闡述的作業系統深度調校實踐，目標是將關鍵路徑的延遲波動（Jitter）從預設環境下的±50μs壓縮到±1μs以內，並將平均延遲穩定地控制在20μs以下，為策略執行提供高度確定性的微秒級回應能力。這是實現穩定獲利的基礎設施保障。

💡 白話解釋：就像把賽車的單圈時間從「60±5秒」優化到「50±0.1秒」，不僅更快，而且每圈時間都非常穩定，這種可預測性對交易策略至關重要。

核心隔離：消除資源競爭

1. 實體核獨佔（CPU Pinning）

為什麼需要

現代CPU的超執行緒技術(HT)將一個實體核模擬為兩個邏輯核，它們共享核心的執行單元（如ALU、FPU）和L1/L2快取。在高頻交易場景下，這帶來兩個致命問題：

若綁定到同一實體核上的兄弟執行緒（如日誌執行緒、監控執行緒）執行了計算密集型操作，尤其是使用AVX等寬指令集時，會完全佔用共享的浮點單元，導致交易執行緒被阻塞
兄弟執行緒對L1/L2快取的存取會汙染或驅逐交易執行緒的熱點資料，增加快取未命中(Cache Miss)率

💡 白話解釋：

問題1：就像兩個人共用一臺電腦，一個在跑3D渲染（佔用顯卡），另一個想玩遊戲就卡住了。

問題2：快取像你的工作桌面，你精心擺放好常用文件，室友卻把他的東西也堆上來，導致你的文件被擠到地上，要用時得重新找。

實測資料表明，在高負載、低延遲敏感場景下，停用超執行緒可使關鍵交易執行緒的執行延遲降低高達22%（基於Intel Xeon Scalable處理器測試），更重要的是大幅降低了延遲波動（Jitter）。

權衡取捨

停用超執行緒會降低系統的整體吞吐量(Throughput)。因此，合理的策略是隔離關鍵路徑：將交易策略引擎、網路處理執行緒等低延遲敏感任務獨佔綁定到實體核心（使用邏輯核ID的偶數或奇數部分），而將日誌記錄、監控上報、資料持久化等非即時性任務部署在啟用超執行緒的核心上。

💡 白話解釋：就像餐廳經營，把最好的廚師和爐具專門留給做主菜（交易任務），其他廚師共用設備做配菜和甜點（日誌、監控等）。

設定方法

# 檢視實體核拓撲（實體核ID連續）
lscpu -p | grep -v '#' | awk -F, '{print $1,$3}' | sort -t, -k2n

# 綁定策略行程到實體核8-15（跳過超執行緒核）
taskset -c 8-15 ./strategy_engine

C++實作（sched_setaffinity）

cpu_set_t cpuset;
CPU_ZERO(&cpuset);
for(int i=8; i<=15; i++) CPU_SET(i, &cpuset);
sched_setaffinity(0, sizeof(cpuset), &cpuset);

2. 中斷重定向

為什麼需要

網路介面卡(NIC)產生的中斷(IRQ)預設通常由CPU 0處理。如果在關鍵交易執行緒執行的CPU核心上處理網路中斷，會產生嚴重的負面影響：

中斷處理程式搶佔使用者態交易執行緒，強制進行上下文切換
中斷處理程式存取記憶體會汙染該核心的L1d快取，導致交易執行緒的熱點資料被驅逐

💡 白話解釋：

中斷就像門鈴，有人按門鈴（網路封包到達）你必須立刻去開門，手上的工作（交易運算）就得暫停。

把門鈴改裝到隔壁房間，讓專門的人去應門，你就能專心工作不被打擾。

單次中斷事件就可能增加~300ns的額外記憶體存取延遲。透過將網卡中斷重定向到專用的非隔離核心，可以顯著降低關鍵交易核心的延遲波動。

設定方法

# 將eth0中斷綁定到CPU16-23
IRQ=$(awk -F: '/eth0/{print $1}' /proc/interrupts)
echo "fff000" > /proc/irq/$IRQ/smp_affinity  # 遮罩對應CPU16-23

3. 核心排程隔離

為什麼需要

即使進行了CPU綁定，預設情況下，核心執行緒（如負責軟中斷處理的ksoftirqd，處理工作佇列的kworker）仍然可能被排程到綁定的核心上執行，搶佔使用者態交易執行緒。

💡 白話解釋：就像你租了一間VIP包廂看球賽，但保全、清潔人員還是會不時進來打擾。這些核心執行緒就像「系統工作人員」，isolcpus等參數就是告訴他們「這幾個CPU核心是VIP專用，閒雜人等勿入」。

isolcpus參數將指定的CPU核心從核心通用排程器中隔離出來，阻止大部分核心執行緒和普通使用者行程在其上執行
nohz_full參數可以在這些核心上啟用自適應無時鐘模式，顯著減少或完全消除時鐘中斷

💡 白話解釋：時鐘中斷像鬧鐘，每隔一段時間響一次檢查有沒有其他任務。nohz_full就是把鬧鐘關掉，讓程式安靜執行。
rcu_nocbs參數將RCU回呼任務卸載到其他非隔離核心執行

💡 白話解釋：RCU像垃圾回收，rcu_nocbs就是讓垃圾車不要開進VIP區域，改在其他地方處理。

設定方法

# 修改GRUB設定
grub_cmdline="isolcpus=8-15 nohz_full=8-15 rcu_nocbs=8-15"

# 生效設定
grub2-mkconfig -o /boot/grub2/grub.cfg

NUMA記憶體最佳化：攻克跨節點延遲

1. 記憶體本地化綁定

為什麼需要

在多路伺服器(NUMA架構)中，記憶體控制器分佈在不同的實體CPU插槽(Node)上。CPU存取其本地節點的記憶體(Local Access)速度最快，而存取其他節點(Remote Access)的記憶體需要透過CPU間的互連，延遲顯著增加（通常高出50%-100%甚至更多）。

💡 白話解釋：想像一個大公司有臺北和高雄兩個辦公室，每個辦公室都有自己的檔案室。臺北員工要查臺北檔案室的資料很快（本地存取），但要查高雄檔案室就得打電話請那邊傳真過來（遠端存取），慢很多。

透過將策略行程及其使用的記憶體嚴格綁定在同一個NUMA節點上，可以消除跨節點存取，將記憶體延遲降低多達50%，並大幅降低延遲波動。

設定方法

# 啟動時綁定記憶體節點
numactl --cpunodebind=0 --membind=0 ./strategy

程式碼控制

#include <numa.h>
numa_set_localalloc();  // 優先本地分配
void* mem = numa_alloc_local(1024*1024); // 1MB本地記憶體

缺頁中斷最佳化：鎖定、預取與大頁

記憶體存取延遲的另一個主要敵人是缺頁中斷(Page Fault)和TLB未命中(TLB Miss)。本部分最佳化旨在將記憶體存取相關的開銷移至初始化階段，並鎖定關鍵資源。

💡 白話解釋：

缺頁中斷：就像你翻書時發現需要的那頁被撕掉了，得去圖書館重新影印（從硬碟載入到記憶體）。

TLB：像是書的目錄索引，幫你快速找到某一頁在哪。TLB太小就像目錄只列了前10頁，後面的都要慢慢翻。

1. 記憶體鎖定（強制實體記憶體駐留）

為什麼需要

預設情況下，作業系統會根據記憶體壓力將行程不常用的記憶體頁換出到磁碟。執行時觸發的換入會造成毫秒級的不可預測停頓。

💡 白話解釋：就像圖書館為了節省空間，把很久沒人借的書移到地下倉庫。當你突然要用時，得等管理員去地下室搬上來，很耗時。記憶體鎖定就是告訴圖書館「這些書永遠放在閱覽室，不準移走」。

mlock系統呼叫將指定的虛擬記憶體範圍鎖定在實體記憶體(RAM)中，確保其不會被換出。此外，它還具有兩個關鍵優勢：

防止頁快取回寫幹擾：鎖定的匿名頁不會被標記為髒頁
確定性提升：結合NUMA綁定，確保所需記憶體始終駐留在本地節點的實體記憶體中

設定方法

# 增大記憶體鎖定配額 (預設64KB)
sysctl vm.lock_limit_kb=1048576  # 1GB
echo "vm.lock_limit_kb=1048576" >> /etc/sysctl.conf

# 停用交換空間
swapoff -a

程式碼實作

#include <sys/mman.h>
#include <iostream>
#include <cstring>

// 分配並鎖定記憶體
void* allocateLockedMemory(size_t size) {
    // 分配對齊的記憶體（POSIX標準）
    void* mem;
    if (posix_memalign(&mem, sysconf(_SC_PAGESIZE), size) != 0) {
        return nullptr;
    }

    // 嘗試實體記憶體鎖定 
    if (mlock(mem, size) == -1) {
        free(mem);  // 鎖定失敗則釋放記憶體
        return nullptr;
    }

    return mem;
}

int main() {
    const size_t memSize = 1024 * 1024; // 1MB
    void* lockedMem = allocateLockedMemory(memSize);
    
    if (!lockedMem) {
        std::cerr << "Failed to allocate locked memory! ";
        std::cerr << "(Tip: Requires root or CAP_IPC_LOCK)\n";
        return 1;
    }

    // 使用記憶體...
    int* data = static_cast<int*>(lockedMem);
    data[0] = 0x12345678;

    // 保持常駐（程式執行時記憶體不會換出）
    while(true) {
        // 實際應用中應有退出邏輯
        sleep(1);
    }
    
    // 程式退出時自動解鎖
    munlock(lockedMem, memSize);
    free(lockedMem);
    return 0;
}

2. 記憶體預取（Prefetching）

為什麼需要

記憶體鎖定保證了實體記憶體駐留，但在行程啟動或記憶體剛分配時，虛擬位址到實體位址的映射可能尚未建立。預取的核心思想是：在策略初始化階段、交易開始前，主動地、一次性地存取所有未來需要使用的鎖定記憶體區域，人為觸發並處理完所有潛在的缺頁中斷。

💡 白話解釋：就像餐廳開店前的準備工作，先把所有可能用到的食材都從冷凍庫拿出來解凍、擺好位置。等客人點餐時就能立即使用，不用臨時去找。

程式碼實作

#include <sys/mman.h>
#include <iostream>
#include <cstring>

int main() {
    const size_t memSize = 1024 * 1024; // 1MB
    void* lockedMem = allocateLockedMemory(memSize);
    
    if (!lockedMem) {
        std::cerr << "Failed to allocate locked memory!\n";
        return 1;
    }

    // 手動觸發缺頁中斷
    memset(lockedMem, 0, memSize);

    // 保持常駐
    while(true) {
        // 預取資料到L1
        __builtin_prefetch(lockedMem, 0, 3);
        sleep(1);
    }

    munlock(lockedMem, memSize);
    free(lockedMem);
    return 0;
}

3. 大頁記憶體（HugePage）

為什麼需要

預設記憶體頁大小為4KB。當行程需要存取大量記憶體時，頻繁的TLB未命中會觸發頁表遍歷，增加存取延遲。

💡 白話解釋：

普通頁(4KB)：像用很多張小便條紙記錄資訊，要找東西得翻很多張。

大頁(2MB)：像用A3大紙記錄，一張紙能寫下更多內容，查找更快。

TLB：像便條紙的索引卡片盒，只能放有限張索引卡。用大頁後，同樣數量的索引卡能覆蓋更多內容。

大頁(HugePage)（通常為2MB或1GB）透過增大單個頁的大小，使得一個TLB條目可以覆蓋更大的實體位址範圍，從而顯著減少TLB Misses的機率。

使用建議

與記憶體鎖定協同：避免大頁被換出
停用透明大頁(THP)：THP的合併操作可能在執行時發生，引入不可預測的效能抖動

💡 白話解釋：透明大頁像自動檔汽車，系統自動決定何時切換。但自動切換的時機可能很糟糕（比如正在緊急超車時），所以改用手動檔更可控。

設定方法

# 檢視目前大頁狀態
grep Huge /proc/meminfo

# 預留 1024 個 2MB 大頁（永久生效）
sudo vim /etc/sysctl.conf
vm.nr_hugepages = 1024

# 關閉透明大頁（THP）
# 臨時關閉
sudo sh -c 'echo never > /sys/kernel/mm/transparent_hugepage/enabled'

# 永久關閉（編輯 GRUB 設定）
sudo vim /etc/default/grub
transparent_hugepage=never

# 更新並重新啟動
sudo update-grub
sudo reboot

程式碼實作

#include <sys/mman.h>
#include <iostream>
#include <cstring>

void* allocateHuge(size_t size) {
    int flags = MAP_PRIVATE | MAP_ANON | MAP_HUGETLB;
    int prot = PROT_READ | PROT_WRITE;
    void* ptr = mmap(nullptr, size, prot, flags, -1, 0);
    return ptr == MAP_FAILED ? nullptr : ptr;
}

int main() {
    const size_t memSize = 2 * 1024 * 1024; // 2MB
    void* lockMem = allocateHuge(memSize);
 
    // 鎖定記憶體
    if (-1 == mlock(lockMem, memSize)) {
        munmap(lockMem, memSize);
        return 1;
    }

    // 手動觸發缺頁中斷
    memset(lockMem, 0, memSize);

    // 保持常駐
    while(true) {
        sleep(1);
    }

    munlock(lockMem, memSize);
    munmap(lockMem, memSize);
    return 0;
}

4. 資料分片設計

為什麼需要

複雜的交易策略可能同時處理多種證券或大量歷史資料。資料分片的核心思想是根據資料的存取頻率、重要性以及策略邏輯，將不同類型的資料結構分配到最合適的實體記憶體區域。

💡 白話解釋：就像整理衣櫃，把常穿的衣服放在最容易拿到的地方，換季衣物放在高處，很少穿的放在儲藏室。交易系統也要把最常用的資料放在最快的記憶體位置。

設定方法

# 檢視NUMA節點分佈
numactl --hardware

# 為Node0分配1024個2MB大頁
echo 1024 > /sys/devices/system/node/node0/hugepages/hugepages-2048kB/nr_hugepages

# 為Node1分配512個1GB大頁（若支援）
echo 512 > /sys/devices/system/node/node1/hugepages/hugepages-1048576kB/nr_hugepages

程式碼實作

#include <numa.h>
#include <numaif.h>
#include <sys/mman.h>

void* alloc_hugepage_on_node(int node, size_t size) {
    struct bitmask *nm = numa_allocate_nodemask();
    numa_bitmask_setbit(nm, node);  // 指定目標節點
    
    // NUMA感知的大頁分配
    void* ptr = mmap(NULL, size, PROT_READ|PROT_WRITE,
                     MAP_PRIVATE|MAP_ANONYMOUS|MAP_HUGETLB,
                     -1, 0);
    mbind(ptr, size, MPOL_BIND, nm->maskp, nm->size + 1, 0);
    
    numa_free_nodemask(nm);
    return ptr;
}

快取最佳化：釋放硬體算力

1. 快取隔離

為什麼需要

在現代多核CPU中，所有核心共享末級快取（通常是L3 Cache）。當多個核心同時頻繁存取L3快取時，會發生快取爭用(Cache Contention)。

💡 白話解釋：L3快取就像公司的公共茶水間冰箱，大家都在用。如果銷售部門把冰箱塞滿他們的東西，研發部門的午餐就沒地方放了。快取隔離就是劃分專屬區域，「這一層專門給研發部，那一層給銷售部」。

Intel的快取分配技術(CAT)允許將L3快取劃分為多個容量可設定的區域，並將特定的CPU核心或行程綁定到某個區域。這樣可以為關鍵的低延遲交易執行緒劃分出一塊受保護的「專屬快取空間」。

設定方法

# 1. 安裝pqos工具
sudo apt update
sudo apt install intel-cmt-cat  # 安裝 Intel RDT 工具包

# 2. 驗證硬體支援
grep -E 'cat_l3' /proc/cpuinfo
pqos -d

# 3. 設定快取隔離策略
pqos -s  # 檢視預設設定

# 建立 COS (Class of Service) 定義
sudo pqos -e 'llc:1=0xff0'    # COS1：分配中間8位快取
sudo pqos -e 'llc:2=0x00f'    # COS2：分配最低4位快取

# 4. 綁定COS
sudo pqos -a 'llc:1=1234'     # 將PID 1234綁定到COS1
sudo pqos -a 'llc:2=5678'     # 將PID 5678綁定到COS2

# 5. 即時監控快取使用
pqos -m all:1                 # 整體監控(每秒重新整理)
pqos -m llc:1 -t 10           # 監控COS1的LLC佔用

2. 資料結構對齊

為什麼需要

CPU快取是以快取行(Cache Line, 通常64位元組)為單位管理的。**偽共享(False Sharing)**發生在多個執行緒頻繁讀寫位於同一個快取行內的不同變數。

💡 白話解釋：快取行就像辦公桌的抽屜，一次只能一個人開。如果你的筆和同事的尺都放在同一個抽屜（同一快取行），你們倆要用東西就得輪流開抽屜，效率很低。資料對齊就是確保每人的東西放在各自的抽屜裡。

透過將高頻並行存取的關鍵資料結構按快取行大小(64位元組)進行記憶體對齊，確保它們獨佔一個或多個完整的快取行，可以徹底消除偽共享帶來的效能損耗。

程式碼實作

struct __attribute__((aligned(64))) MarketData {
    std::atomic<uint64_t> timestamp;
    char payload[32];
};

// 驗證對齊
static_assert(offsetof(MarketData, timestamp) % 64 == 0, "未對齊");

3. SIMD指令加速

為什麼需要

高頻交易策略常常需要對大量資料進行相同的算術或邏輯運算。單指令多資料流(SIMD)指令允許一條指令同時處理多個資料元素。

💡 白話解釋：普通指令就像一次只能蓋一個章，SIMD就像一排8個章同時蓋下去。處理大量相同運算時效率大幅提升。比如同時計算8支股票的均價，一條SIMD指令搞定。

程式碼範例

__m512 parse_bid_ask(const float* data) {
    __m512 bid = _mm512_load_ps(data);
    __m512 ask = _mm512_load_ps(data + 16);
    return _mm512_sub_ps(ask, bid);  // 計算價差
}

調校優先級策略

最佳化措施的實施應遵循優先級原則，優先解決影響最大、最基礎的非確定性問題：

優先級	技術方向	核心價值	關鍵手段範例
1	核心隔離	消除作業系統排程與硬體中斷帶來的不確定性，為奈秒級精度奠定基礎	isolcpus隔離核、中斷重定向、CPU Pinning
2	NUMA記憶體最佳化	解決跨節點記憶體存取延遲翻倍問題，將記憶體存取約束在本地NUMA節點	numactl綁核綁存、大頁記憶體(HugePage)、記憶體鎖定(mlock)
3	快取控制	避免共享快取爭用導致的微秒級抖動，提升計算確定性	CAT快取隔離、資料結構對齊消除偽共享、SIMD指令向量化

💡 白話解釋：就像蓋房子，先打地基（核心隔離），再建主體結構（記憶體最佳化），最後才是精裝修（快取控制）。順序很重要！

關鍵結論

在追求奈秒級競爭優勢的高頻交易領域，作業系統的預設行為往往是延遲不確定性的主要來源。透過本文詳述的系統性調校實踐：

從核心隔離消除排程幹擾
到NUMA綁定最佳化記憶體位置
再到記憶體鎖定/預取/大頁消除缺頁停頓
最後透過快取隔離和資料結構最佳化減少核心間幹擾

我們能夠將關鍵交易路徑的延遲穩定地壓縮到20微秒(μs)以內，並將其波動範圍(Jitter)控制在**±1微秒(μs)的狹窄區間。這種高度確定的微秒級回應能力**是策略穩定獲利的基礎設施保障。

💡 白話解釋：經過這些優化後，系統就像一輛精心調校的F1賽車，不僅跑得快，而且每圈時間都極其穩定。在高頻交易的賽道上，這種穩定性和速度就是致勝關鍵。

下一征程：核心旁路(Kernel Bypass)

儘管系統層最佳化已將延遲壓縮至微秒級，網路I/O處理仍然是最後的、也是最堅固的效能壁壘。傳統核心網路協定堆疊在處理高速網路封包時存在固有瓶頸：

協定堆疊處理耗時 >10μs：封包需要穿越複雜的協定層
多次資料拷貝：資料從網卡DMA區域拷貝到核心Socket Buffer，再從核心拷貝到使用者空間
TCP重傳引入不確定性：核心的擁塞控制和重傳機制可能引入非預期的延遲

💡 白話解釋：傳統網路處理就像快遞必須經過郵局：收件→分揀→派送，每個環節都要排隊。核心旁路技術就像快遞員直接把包裹送到你手上，跳過所有中間環節。

DPDK 繞過內核的主要好處

DPDK (Data Plane Development Kit) 透過繞過內核直接處理數據包，帶來革命性的性能提升：

性能大幅提升

消除內核開銷：避免了用戶空間和內核空間之間的上下文切換（context switch），每次切換可能耗費數千個 CPU 週期
零拷貝技術：數據包直接從網卡 DMA 到用戶空間內存，省去了傳統網路堆疊中多次內存拷貝的開銷
線速處理：可以達到接近網卡硬體極限的處理速度，如 10Gbps、40Gbps 甚至 100Gbps 的線速轉發

確定性和低延遲

可預測的延遲：繞過內核調度器，避免了不可預測的中斷和調度延遲
極低延遲：端到端延遲可以降到微秒級別，對金融交易、5G 網路等低延遲場景至關重要
CPU 親和性：可以將特定 CPU 核心專門用於數據包處理，避免 CPU 快取失效

靈活性和可控性

完全控制數據路徑：開發者可以根據具體需求優化每個處理步驟
批量處理：可以一次處理多個數據包，提高 CPU 快取利用率
輪詢模式：使用輪詢（polling）替代中斷，在高負載下效率更高

資源效率

更少的 CPU 使用：相同吞吐量下，DPDK 通常比傳統內核網路堆疊使用更少的 CPU 資源
更好的擴展性：可以近乎線性地隨 CPU 核心數增加而擴展性能

💡 白話解釋：

傳統方式：像排隊買票，要經過檢票員（內核）才能進場

DPDK方式：像VIP通道，直接刷臉進場，跳過所有排隊環節

在高頻交易中，這種差異就是賺錢與賠錢的分水嶺

這些優勢使 DPDK 成為電信設備、高頻交易系統、DDoS 防護、負載均衡器等高性能網路應用的首選技術。

為了將端到端延遲進一步推向亞微秒級甚至奈秒級，必須繞過核心協定堆疊。下篇《核心旁路技術實踐》將深入探討如何利用DPDK、Solarflare等技術，將使用者態應用直接與網卡硬體對接，實現零拷貝(Zero-Copy)、輪詢模式驅動(Polling Mode Driver)和使用者態協定堆疊，將網路處理延遲降低一個數量級（通常降至1μs以下），突破核心瓶頸，實現真正的奈秒級交易系統。

原文連結：https://zhuanlan.zhihu.com/p/1936428978639467459

# 安裝
sudo apt-get install rt-tests

# 測試系統延遲抖動
sudo cyclictest -p 99 -t 1 -n -i 1000 -l 100000 -h 1000 -q
# -p 99: 優先級99
# -t 1: 單執行緒
# -n: 使用nanosleep
# -i 1000: 間隔1000us
# -l 100000: 執行100000次
# -h 1000: 直方圖最大值1000us

自製延遲測試程式

#include <chrono>
#include <vector>
#include <algorithm>
#include <iostream>

void measure_latency() {
    const int iterations = 1000000;
    std::vector<long> latencies;
    
    for(int i = 0; i < iterations; i++) {
        auto start = std::chrono::high_resolution_clock::now();
        // 你的交易邏輯
        auto end = std::chrono::high_resolution_clock::now();
        
        auto latency = std::chrono::duration_cast<std::chrono::nanoseconds>
                      (end - start).count();
        latencies.push_back(latency);
    }
    
    // 計算統計數據
    std::sort(latencies.begin(), latencies.end());
    long p50 = latencies[iterations * 0.50];
    long p99 = latencies[iterations * 0.99];
    long p999 = latencies[iterations * 0.999];
    
    std::cout << "P50: " << p50 << "ns\n";
    std::cout << "P99: " << p99 << "ns\n";
    std::cout << "P99.9: " << p999 << "ns\n";
}

2. CPU 和中斷監控

perf (系統效能分析)

# 安裝
sudo apt-get install linux-tools-common linux-tools-generic

# 監控CPU事件
sudo perf stat -C 8-15 ./strategy_engine

# 分析快取命中率
sudo perf stat -e cache-references,cache-misses ./strategy_engine

# 監控上下文切換
sudo perf stat -e context-switches,cpu-migrations ./strategy_engine

監控中斷

# 即時監控中斷分佈
watch -n 1 'cat /proc/interrupts | grep eth0'

# 檢查CPU親和性
for i in /proc/irq/*/smp_affinity; do 
    echo "$i: $(cat $i)"
done

3. 記憶體和NUMA測試

numactl 測試

# 測試NUMA延遲差異
numactl --hardware  # 檢視NUMA拓撲

# 測試本地vs遠端記憶體延遲
# 本地節點
numactl --cpunodebind=0 --membind=0 ./memory_test

# 遠端節點
numactl --cpunodebind=0 --membind=1 ./memory_test

記憶體延遲測試程式

#include <numa.h>
#include <chrono>
#include <iostream>

void test_memory_latency() {
    const size_t size = 1024 * 1024 * 100; // 100MB
    
    // 測試本地記憶體
    numa_set_localalloc();
    void* local_mem = numa_alloc_local(size);
    
    auto start = std::chrono::high_resolution_clock::now();
    for(int i = 0; i < 1000000; i++) {
        volatile int* p = (int*)local_mem;
        *p = i;  // 寫入
        int val = *p;  // 讀取
    }
    auto end = std::chrono::high_resolution_clock::now();
    
    auto local_time = std::chrono::duration_cast<std::chrono::nanoseconds>
                     (end - start).count();
    
    std::cout << "Local memory latency: " << local_time/1000000 << "ns\n";
    
    numa_free(local_mem, size);
}

4. 快取效能測試

Intel PCM (快取監控)

# 下載安裝
git clone https://github.com/intel/pcm.git
cd pcm && make

# 監控快取使用
sudo ./pcm 1  # 每秒更新

# 監控記憶體頻寬
sudo ./pcm-memory 1

pqos (快取隔離監控)

# 監控L3快取
sudo pqos -m llc:1  # 監控LLC使用

# 測試快取隔離效果
# 隔離前
sudo pqos -m all:1 -t 10

# 設定隔離
sudo pqos -e 'llc:1=0xff0'  # 分配快取
sudo pqos -a 'llc:1=1234'   # 綁定PID

# 隔離後
sudo pqos -m all:1 -t 10

5. 網路延遲測試

sockperf (Socket效能測試)

# 安裝
git clone https://github.com/Mellanox/sockperf.git
cd sockperf && ./autogen.sh && ./configure && make

# Server端
./sockperf server -i 192.168.1.100 -p 12345

# Client端測試延遲
./sockperf ping-pong -i 192.168.1.100 -p 12345 -t 60

網路中斷測試

# 檢查網卡中斷合併設定
ethtool -c eth0

# 關閉中斷合併以降低延遲
sudo ethtool -C eth0 rx-usecs 0 tx-usecs 0

# 測試前後延遲差異
ping -c 1000 -i 0.001 192.168.1.100 | tail -n 3

6. 整合測試腳本

#!/bin/bash
# performance_test.sh

echo "=== HFT System Performance Test ==="

# 1. 檢查系統設定
echo "1. System Configuration:"
echo "CPU Isolation: $(cat /proc/cmdline | grep isolcpus)"
echo "Huge Pages: $(grep HugePages_Total /proc/meminfo)"
echo "CPU Frequency: $(cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor | uniq)"

# 2. 測試CPU延遲
echo -e "\n2. CPU Latency Test:"
sudo cyclictest -p 99 -t 1 -n -i 1000 -l 10000 -h 100 -q | tail -n 10

# 3. 測試記憶體延遲
echo -e "\n3. Memory Latency:"
sudo numactl --hardware | grep "node distances"

# 4. 測試快取
echo -e "\n4. Cache Performance:"
sudo perf stat -e cache-references,cache-misses sleep 1 2>&1 | grep cache

# 5. 測試網路
echo -e "\n5. Network Latency:"
ping -c 100 -i 0.001 localhost | tail -n 3

echo -e "\n=== Test Complete ==="

7. 效能比較基準

優化前後的典型數值對比：

指標	優化前	優化後	測試工具
CPU延遲抖動	±50μs	±1μs	cyclictest
平均延遲	100μs	<20μs	自製測試程式
快取命中率	85%	>98%	perf stat
NUMA遠端存取	+50%	0%	numactl
網路RTT	50μs	<10μs	sockperf
上下文切換	>1000/s	<100/s	perf stat

💡 測試建議：

按優先級逐步測試：先測基準線，再逐項優化並測試

每次只改變一個變數，以確定優化效果來源

使用自動化腳本定期測試，監控系統效能退化

在實際交易時段測試，模擬真實負載情況

這些工具能幫你量化優化效果，找出系統瓶頸，並驗證每項優化措施的實際收益。

附錄：常用術語快速查詢

術語	全稱	白話解釋
HFT	High-Frequency Trading	高頻交易，以極快速度進行大量交易
CFS	Completely Fair Scheduler	Linux的公平排程器，像老師公平分配說話時間
IRQ	Interrupt Request	中斷請求，像門鈴通知CPU有緊急事件
NUMA	Non-Uniform Memory Access	非統一記憶體存取，像多個辦公室各有檔案櫃
TLB	Translation Lookaside Buffer	地址轉換緩衝，像通訊錄快速查詢
Cache Line	-	快取行，CPU快取的最小單位，像抽屜格子
False Sharing	-	偽共享，不同資料擠在同一快取行造成衝突
Page Fault	-	缺頁中斷，要用的記憶體頁不在RAM中
Jitter	-	抖動，延遲的不穩定程度
SIMD	Single Instruction Multiple Data	單指令多資料，一個指令處理多個資料
DPDK	Data Plane Development Kit	資料平面開發套件，繞過核心直接處理網路

Keyboard shortcuts

Jason's Notes