LLM 推理框架完整指南 - RTX 3060 優化版

llama.cpp:           25-30 tokens/秒
llamafile:           25-32 tokens/秒  
candle:              20-28 tokens/秒
OpenVINO (Intel):    35-40 tokens/秒 (Intel CPU)
ONNX Runtime:        22-28 tokens/秒

特殊硬體平臺的最佳選擇

Apple Silicon (M1/M2/M3)

MLX (Apple 官方)：可能有 30-50% 效能優勢
充分利用 Apple 統一記憶體架構

Android 手機

MNN (阿里巴巴)：移動端優化更好
NCNN (騰訊)：在某些 Android 設備上更快

結論

綜合考慮效能、穩定性、易用性，llama.cpp 仍是 CPU 推理的最佳選擇，但特定硬體平臺可能有更優選擇。

三、RTX 3060 12GB GPU 最佳方案

RTX 3060 12GB 效能比較

框架	Tokens/秒	VRAM 使用	設置難度
ExLlamaV2	45-60	~7GB	中等
vLLM	40-55	~9GB	較難
Ollama	35-50	~8GB	極簡單
llama.cpp (CUDA)	30-40	~7.5GB	簡單
Transformers	25-35	~10GB	簡單

可運行的模型大小

70B 模型：2-bit 量化（品質損失較大）
30B 模型：4-bit 量化（品質不錯）
13B 模型：8-bit 量化（品質極佳）
7B 模型：FP16 全精度（最高品質）

具體安裝指南

ExLlamaV2 安裝（最佳效能）

# 安裝
pip install exllamav2
pip install flash-attn  # 額外加速

# 使用範例
from exllamav2 import ExLlamaV2, ExLlamaV2Config
from exllamav2.generator import ExLlamaV2Generator

# 載入 GPTQ 量化模型
model_dir = "TheBloke/Llama-2-13B-GPTQ"

Ollama 安裝（最簡單）

# Windows：下載安裝程式
# Linux/Mac：
curl -fsSL https://ollama.ai/install.sh | sh

# 運行各種模型
ollama run llama3.2:3b      # 3B 模型
ollama run llama3:8b        # 8B 模型  
ollama run qwen2.5:14b      # 14B 模型

llama.cpp GPU 版本設置

# 編譯 CUDA 版本
cmake -B build -DLLAMA_CUDA=ON
cmake --build build --config Release

# 運行時指定 GPU 層數
./main -m model.gguf -ngl 35  # 35 層放 GPU

四、理解 Token 與效能

什麼是 Token？

Token 是語言模型處理文字的基本單位，介於字母和單字之間：

範例

英文："Hello, how are you?" → 6 個 tokens
["Hello", ",", " how", " are", " you", "?"]

中文："你好嗎" → 3-5 個 tokens（依模型而定）
["你", "好", "嗎"] 或 ["你好", "嗎"]

Token 的一般規律

英文：1 個 token ≈ 0.75 個單字（約 4 個字母）
中文：1 個 token ≈ 0.5-1 個漢字
程式碼：變數名、符號通常各算一個 token

不同模型的 Token 標準差異

實例："我愛人工智慧"

GPT 系列：    5 tokens ["我", "愛", "人", "工", "智慧"]
LLaMA 系列：   6-7 tokens（對中文切分更細）
ChatGLM：     3-4 tokens ["我", "愛", "人工智慧"]
Qwen：       4 tokens（中文優化更好）

模型大小與速度關係

7B 模型：80-120 tokens/秒

70 億參數
每個 token 需要經過 70 億次計算
VRAM 佔用：約 4-6GB（4-bit 量化）

13B 模型：40-60 tokens/秒

130 億參數（幾乎是 7B 的兩倍）
計算量加倍，速度約減半
VRAM 佔用：約 7-9GB（4-bit 量化）

Tokens/秒的實際體感

10 tokens/秒：  明顯卡頓，像打字機
30 tokens/秒：  流暢，像正常閱讀速度  
60 tokens/秒：  很快，像快速瀏覽
100+ tokens/秒： 極快，幾乎即時

實際輸出速度

中文輸出：30 tokens/秒 ≈ 每秒 15-30 個字
英文輸出：30 tokens/秒 ≈ 每秒 20-25 個單字
一般對話：30-40 tokens/秒就很流暢了

Token 計算工具

# 使用 tiktoken（OpenAI）
import tiktoken
enc = tiktoken.get_encoding("cl100k_base")
tokens = enc.encode("Hello, world!")
print(f"Token 數：{len(tokens)}")  # 輸出：3

# 使用 transformers（HuggingFace）
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b")
tokens = tokenizer.encode("Hello, world!")
print(f"Token 數：{len(tokens)}")

為什麼要關心 Token？

API 計費基準
- GPT-4：約 $0.03/1K tokens
- Claude：約 $0.025/1K tokens
上下文長度限制
- GPT-4：128K tokens 限制
- Llama-2：4K tokens 限制
- Claude：200K tokens 限制
效能評估標準
- 同樣 30 tokens/秒，中文可能比英文慢

RTX 3060 實際使用體驗

7B 模型 @ 100 tokens/秒

英文：每秒約 75 個單字（極快）
中文：每秒約 50-100 個字（很快）
適合：即時對話、程式碼生成

13B 模型 @ 50 tokens/秒

英文：每秒約 35-40 個單字（流暢）
中文：每秒約 25-50 個字（流暢）
適合：深度對話、專業寫作

五、實用建議總結

快速開始指南

新手入門：先試 Ollama，5 分鐘就能跑起來
追求效能：用 ExLlamaV2，充分發揮 3060 實力
需要介面：用 Text Generation WebUI
已熟悉 llama.cpp：編譯 CUDA 版本繼續使用

模型選擇建議

日常對話：7B 模型足夠，速度快
專業任務：13B 模型，品質更好
中文使用：優先選擇 Qwen、ChatGLM（tokenizer 對中文更友善）

效能測試方法

# 大多數工具會顯示 tokens/秒
llama.cpp: 會顯示 "tok/s"
ollama: 運行時顯示速度統計
exllama: 提供詳細的效能指標

Keyboard shortcuts

Jason's Notes