LLVM 編譯器架構與語言效能深度解析

LLVM 基礎概念

什麼是 LLVM？

LLVM (Low Level Virtual Machine) 是一套模組化、可重用的編譯器基礎設施。儘管名字中有 "Virtual Machine"，但現代 LLVM 遠超過虛擬機的範疇。

傳統編譯器：每個語言需要實現所有功能
C編譯器    ：前端 → 優化器 → x86後端、ARM後端、RISC-V後端...
Fortran編譯器：前端 → 優化器 → x86後端、ARM後端、RISC-V後端...
（大量重複工作）

LLVM 架構：共享優化器和後端
C/C++   → Clang前端   ↘
Rust    → Rust前端    → LLVM IR → LLVM優化器 → LLVM後端 → 各平臺機器碼
Swift   → Swift前端   ↗
Julia   → Julia前端   ↗

LLVM IR - 統一的中間表示

LLVM IR（Intermediate Representation）是 LLVM 的核心，它是一種低階、類型化的彙編語言。

; C 代碼：int multiply(int x, int y) { return x * y; }
; 對應的 LLVM IR：

define i32 @multiply(i32 %x, i32 %y) {
entry:
  %result = mul i32 %x, %y
  ret i32 %result
}

; 特點：
; - 靜態單賦值形式（SSA）
; - 強類型（i32 = 32位整數）
; - 無限暫存器
; - 平臺無關

編譯器架構解析

完整編譯流程

┌─────────────┐     ┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│   源代碼     │ --> │    前端      │ --> │   中端優化   │ --> │    後端      │
│  (C/Rust)   │     │   (解析)     │     │  (LLVM IR)  │     │  (代碼生成)  │
└─────────────┘     └─────────────┘     └─────────────┘     └─────────────┘
       ↓                    ↓                    ↓                    ↓
   程式邏輯            抽象語法樹              優化的IR            機器碼

三段式架構的優勢

1. 前端（Language-Specific Frontend）

負責：

詞法分析、語法分析
語義檢查
類型檢查
生成 LLVM IR

2. 中端（LLVM Optimizer）

負責：

與機器無關的優化
死代碼消除
函數內聯
循環優化
向量化

3. 後端（Target-Specific Backend）

負責：

指令選擇
暫存器分配
指令排程
生成目標機器碼

Zig 作為 C/C++ 編譯器的例子

# Zig 內建了完整的 LLVM 工具鏈
zig cc hello.c -o hello        # 作為 C 編譯器
zig c++ hello.cpp -o hello     # 作為 C++ 編譯器

# 實際執行流程：
# hello.c → Clang前端 → LLVM IR → LLVM優化 → LLVM後端 → 執行檔

# 交叉編譯能力
zig cc -target aarch64-linux hello.c   # 編譯 ARM64 Linux
zig cc -target x86_64-windows hello.c  # 編譯 Windows x64

為什麼不同語言都用 LLVM 效能卻不同

核心原理：LLVM 只能優化它看到的

效能差異來源分佈：
┌────────────────────────────────────┐
│ 語言設計 (60%)                      │ ← 記憶體模型、類型系統
├────────────────────────────────────┤
│ 前端品質 (30%)                      │ ← IR 生成品質
├────────────────────────────────────┤
│ LLVM 優化 (10%)                    │ ← 通用優化
└────────────────────────────────────┘

1. 語言設計層面的影響

記憶體管理模型差異

#![allow(unused)]
fn main() {
// Rust - 零成本抽象，無GC
fn process_data(data: Vec<u32>) -> u32 {
    data.iter().sum()  // 編譯時決定記憶體釋放點
}
// 生成的 LLVM IR：直接的記憶體操作，無額外開銷

// Go - 垃圾回收
func processData(data []uint32) uint32 {
    sum := uint32(0)
    for _, v := range data {
        sum += v
    }
    return sum
}
// 生成的 LLVM IR：包含 GC safepoint、寫屏障等

// Python - 引用計數 + GC
def process_data(data):
    return sum(data)
生成的 LLVM IR（如果 JIT）：
- 類型檢查
- 引用計數操作
- 邊界檢查
- 可能的 boxing/unboxing
}

類型系統的影響

// C - 靜態類型，無運行時檢查
int add(int a, int b) {
    return a + b;
}
// LLVM IR: 單純的 add 指令

// TypeScript (編譯到 JS) - 動態類型
function add(a: number, b: number): number {
    return a + b;
}
// 運行時仍需類型檢查，LLVM IR 包含：
// - typeof 檢查
// - NaN 檢查
// - 可能的類型轉換

// Rust - 靜態類型 + 明確的溢出行為
fn add(a: i32, b: i32) -> i32 {
    a.wrapping_add(b)  // 明確指定 wrapping
}
// LLVM IR: 明確的 add 指令，無額外檢查

2. 前端編譯器品質差異

相同功能，不同 IR 品質

; 優秀的前端（如 Clang）生成的 IR
define i32 @sum_array(i32* %arr, i32 %n) {
entry:
  %wide.trip.count = zext i32 %n to i64
  %min.iters.check = icmp ult i64 %wide.trip.count, 4
  br i1 %min.iters.check, label %scalar.ph, label %vector.ph

vector.ph:
  ; 向量化友好的程式碼
  %vec.phi = phi <4 x i32> 
  ; ... 向量化循環 ...
}

; 較差的前端可能生成
define i32 @sum_array(i8* %obj) {
entry:
  ; 大量運行時檢查
  %type = call i32 @get_type(i8* %obj)
  %is_array = icmp eq i32 %type, 42
  br i1 %is_array, label %array_path, label %error_path
  
array_path:
  ; 無法向量化的循環
  %i = phi i32 [ 0, %entry ], [ %next_i, %loop ]
  %elem_ptr = call i8* @get_element(i8* %obj, i32 %i)
  ; ... 更多間接調用 ...
}

3. 抽象成本差異

// C++ - 零成本抽象
template<typename T>
inline T max(T a, T b) {
    return a > b ? a : b;
}
// 完全內聯，生成與手寫相同的 IR

// Java（假設用 LLVM）- 有成本的抽象
public static <T extends Comparable<T>> T max(T a, T b) {
    return a.compareTo(b) > 0 ? a : b;
}
// IR 包含虛擬方法調用、可能的 boxing

常見誤解澄清

誤解 1：用了 LLVM 就會一樣快

錯誤 ❌

真相：LLVM 只是工具，語言設計才是效能的決定因素。

# Python with Numba (LLVM JIT)
@numba.jit
def slow_function(x):
    return x + "hello"  # 動態類型，無法優化
    
@numba.jit
def fast_function(x: float) -> float:
    return x * 2.0  # 類型明確，可以優化

誤解 2：LLVM 可以自動優化所有程式碼

錯誤 ❌

真相：LLVM 必須遵守語言語義，不能改變程式行為。

; LLVM 不能優化掉的例子：

; 1. 語言要求的邊界檢查
%bounds_check = icmp ult i32 %index, %array_len
br i1 %bounds_check, label %safe, label %panic

; 2. 必要的類型檢查（動態語言）
%type_id = call i32 @get_type_id(i8* %object)
switch i32 %type_id, label %type_error [
  i32 1, label %int_case
  i32 2, label %float_case
]

; 3. 記憶體模型要求（GC write barrier）
call void @gc_write_barrier(i8** %target, i8* %value)

誤解 3：JIT 一定比 AOT 快

錯誤 ❌

真相：各有優劣，取決於使用場景。

AOT (Ahead-of-Time) 編譯：
✓ 啟動快
✓ 可預測的效能
✓ 更激進的全程式優化
✗ 無法根據運行時資訊優化

JIT (Just-in-Time) 編譯：
✓ 可根據運行時資訊優化
✓ 可以去虛擬化
✗ 啟動慢（需要編譯）
✗ 需要預熱期
✗ 記憶體開銷（儲存編譯器）

誤解 4：C 永遠最快

部分正確 ⚠️

真相：Rust、Zig、C++ 可以達到相同效能，有時甚至更快。

#![allow(unused)]
fn main() {
// Rust 可能比 C 更快的例子
// Rust 的所有權系統允許更激進的優化

// C 版本
void process(char* data, size_t len) {
    // 編譯器不知道 data 是否會 alias
    // 必須保守優化
}

// Rust 版本
fn process(data: &mut [u8]) {
    // 編譯器知道沒有 aliasing
    // 可以更激進地優化
}
}

誤解 5：LLVM 是萬能的

錯誤 ❌

LLVM 的限制：

LLVM 做不到的事：
1. 改變語言語義
2. 移除語言要求的安全檢查
3. 改變記憶體模型
4. 優化掉有副作用的程式碼
5. 違反 ABI 約定

LLVM 擅長的事：
1. 死代碼消除
2. 常數摺疊和傳播
3. 循環優化
4. 向量化
5. 函數內聯
6. 尾遞迴優化

LLVM 優化能力與限制

LLVM 優化 Pass 管線

源 IR → [分析] → [轉換] → [分析] → [轉換] → ... → 優化的 IR

常見優化 Pass：
├─ SimplifyCFG（簡化控制流）
├─ SROA（聚合替換）
├─ EarlyCSE（早期公共子表達式消除）
├─ Inline（函數內聯）
├─ InstCombine（指令組合）
├─ LoopRotate（循環旋轉）
├─ LoopVectorize（循環向量化）
├─ SLP（超字級平行）
└─ DeadCodeElimination（死代碼消除）

優化範例：循環向量化

原始 C 程式碼

void add_arrays(float* a, float* b, float* c, int n) {
    for (int i = 0; i < n; i++) {
        c[i] = a[i] + b[i];
    }
}

LLVM 優化前的 IR（簡化版）

define void @add_arrays(float* %a, float* %b, float* %c, i32 %n) {
entry:
  br label %loop

loop:
  %i = phi i32 [ 0, %entry ], [ %next_i, %loop ]
  %a_ptr = getelementptr float, float* %a, i32 %i
  %b_ptr = getelementptr float, float* %b, i32 %i
  %c_ptr = getelementptr float, float* %c, i32 %i
  %a_val = load float, float* %a_ptr
  %b_val = load float, float* %b_ptr
  %sum = fadd float %a_val, %b_val
  store float %sum, float* %c_ptr
  %next_i = add i32 %i, 1
  %done = icmp eq i32 %next_i, %n
  br i1 %done, label %exit, label %loop

exit:
  ret void
}

LLVM 向量化後的 IR（簡化版）

define void @add_arrays(float* %a, float* %b, float* %c, i32 %n) {
entry:
  %n_vec = and i32 %n, -4  ; 向量化部分的長度
  br label %vector_loop

vector_loop:
  %i = phi i32 [ 0, %entry ], [ %next_i, %vector_loop ]
  %a_ptr = getelementptr float, float* %a, i32 %i
  %b_ptr = getelementptr float, float* %b, i32 %i
  %c_ptr = getelementptr float, float* %c, i32 %i
  %a_vec = bitcast float* %a_ptr to <4 x float>*
  %b_vec = bitcast float* %b_ptr to <4 x float>*
  %c_vec = bitcast float* %c_ptr to <4 x float>*
  %a_val = load <4 x float>, <4 x float>* %a_vec
  %b_val = load <4 x float>, <4 x float>* %b_vec
  %sum = fadd <4 x float> %a_val, %b_val
  store <4 x float> %sum, <4 x float>* %c_vec
  %next_i = add i32 %i, 4
  %done = icmp uge i32 %next_i, %n_vec
  br i1 %done, label %scalar_loop, label %vector_loop

scalar_loop:
  ; 處理剩餘元素
  ; ...
}

LLVM 不能優化的情況

// 1. 有副作用的函數調用
int process(int x) {
    printf("Processing %d\n", x);  // LLVM 不能移除
    return x * 2;
}

// 2. 語言要求的檢查
// Rust 的陣列邊界檢查（debug mode）
let value = array[index];  // 必須保留邊界檢查

// 3. 記憶體模型約束
// Go 的 GC write barrier
*ptr = value  // 需要通知 GC

// 4. 原子操作
atomic_store(&shared_var, value);  // 不能重排序

實際案例分析

案例 1：相同演算法，不同語言的效能

測試：計算斐波那契數列第 40 項

// C - 基準效能
int fib(int n) {
    if (n <= 1) return n;
    return fib(n-1) + fib(n-2);
}
// 執行時間：~1.0 秒

// Rust - 相同效能
fn fib(n: i32) -> i32 {
    if n <= 1 { n } else { fib(n-1) + fib(n-2) }
}
// 執行時間：~1.0 秒

// Go - 稍慢（函數調用開銷）
func fib(n int) int {
    if n <= 1 { return n }
    return fib(n-1) + fib(n-2)
}
// 執行時間：~1.2 秒

// Python - 極慢（解釋執行）
def fib(n):
    if n <= 1: return n
    return fib(n-1) + fib(n-2)
// 執行時間：~30 秒

// Python + Numba (LLVM JIT) - 接近 C
@numba.jit
def fib_jit(n):
    if n <= 1: return n
    return fib_jit(n-1) + fib_jit(n-2)
// 執行時間：~1.1 秒（不含編譯時間）

案例 2：向量運算效能比較

# NumPy（C + SIMD）
import numpy as np
a = np.random.rand(1000000)
b = np.random.rand(1000000)
c = a + b  # ~2ms

# Pure Python
a = [random.random() for _ in range(1000000)]
b = [random.random() for _ in range(1000000)]
c = [x + y for x, y in zip(a, b)]  # ~200ms

# Rust
let a: Vec<f64> = (0..1000000).map(|_| rand()).collect();
let b: Vec<f64> = (0..1000000).map(|_| rand()).collect();
let c: Vec<f64> = a.iter().zip(b.iter()).map(|(x, y)| x + y).collect();
// ~2ms（自動向量化）

案例 3：字串處理效能

#![allow(unused)]
fn main() {
// Rust - 零成本抽象
fn count_words(text: &str) -> usize {
    text.split_whitespace().count()
}
// 直接操作記憶體，無分配

// Go - 需要分配
func countWords(text string) int {
    return len(strings.Fields(text))  // 分配切片
}

// Python - 多層抽象
def count_words(text):
    return len(text.split())  # 建立列表物件
}

效能優化建議

選擇適合的語言

計算密集型 + 需要控制：
→ C/C++/Rust/Zig

並發 + 網路服務：
→ Go/Java/C#

科學計算 + 原型開發：
→ Julia/Python+NumPy

系統程式 + 安全性：
→ Rust/Zig

Web + 快速開發：
→ TypeScript/Python/Ruby

理解語言特性對效能的影響

記憶體分配
- 避免不必要的分配
- 使用物件池
- 預分配容器
類型資訊
- 提供類型提示（Python）
- 使用靜態類型（TypeScript）
- 避免 any/Object 類型
抽象層級
- 理解抽象成本
- 必要時使用低階 API
- Profile 驗證效能

善用編譯器優化

# C/C++ 優化等級
gcc -O0  # 無優化（除錯用）
gcc -O1  # 基本優化
gcc -O2  # 推薦（平衡編譯時間和效能）
gcc -O3  # 激進優化
gcc -Ofast  # 可能違反標準的優化

# Rust 優化
cargo build --release  # 開啟優化

# Link-Time Optimization (LTO)
gcc -flto  # 跨編譯單元優化
cargo build --release -- -C lto=true

總結

關鍵要點

LLVM 是工具，不是魔法
- 提供優秀的優化和多平臺支援
- 但無法改變語言的根本設計
語言設計決定效能上限
- 記憶體模型（GC vs 手動管理）
- 類型系統（靜態 vs 動態）
- 抽象成本（零成本 vs 運行時）
前端品質影響 IR 品質
- 好的前端生成優化友好的 IR
- 差的前端限制 LLVM 的優化能力
理解優化的可能與限制
- LLVM 擅長局部優化
- 但必須遵守語言語義
- 不能優化掉副作用
選擇合適的工具
- 沒有萬能的語言
- 根據需求選擇
- 理解 trade-off

效能金字塔

         ┌───┐
         │C/│  系統程式語言
        │Rust│  （無 GC、零成本抽象）
       │Zig/C++│
      ├─────────┤
      │Go/Swift │  現代編譯語言
     │  Kotlin  │  （有 GC、靜態類型）
    ├────────────┤
    │Java (JIT)  │  JVM/CLR 語言
   │   C# (JIT)  │  （JIT 優化）
  ├───────────────┤
  │Julia/JavaScript│  動態 JIT 語言
 │  Python+Numba   │  （部分 JIT）
├───────────────────┤
│Python/Ruby/PHP    │  解釋型語言
└───────────────────┘  （最慢但最靈活）

記住：使用 LLVM ≠ 自動獲得 C 的效能，但 LLVM 確實是現代編譯器基礎設施的最佳選擇之一！

Keyboard shortcuts

Jason's Notes