開源 OCR 框架比較：以 PaddleOCR 為中心

一句話結論

想快速落地中文/票據/文檔 OCR 並跑在 GPU / 服務端：優先選 PaddleOCR。
只需要傳統掃描文件 OCR，跨平台、輕量、無 GPU 要求：Tesseract 足夠。
做場景文字（街景、招牌）、低質量圖片、手寫：可以考慮 EasyOCR 或 PaddleOCR / MMOCR 的場景文字模型。
做研究型、多模型實驗（PyTorch）、自定義管線：MMOCR 彈性最大。

幾個主流開源 OCR 框架簡表

框架	核心定位	語言數量（大約）	強項場景	主要技術棧
PaddleOCR	工程化完整 OCR / Doc AI 解決方案	100+、含多語系文檔與結構解析	文件、票據、多語系文檔解析、場景文字	PaddlePaddle
Tesseract	傳統文檔 OCR 引擎	100+ 語言	掃描文檔、高品質印刷文字	C++ + Leptonica
EasyOCR	PyTorch 深度學習 OCR 函式庫	80+ 語言	噪聲圖片、場景文字、手寫	PyTorch
MMOCR	研究/工程用多模型 OCR 工具箱	取決於模型	文本檢測+識別+關鍵資訊抽取	PyTorch (OpenMMLab)

PaddleOCR：優缺點

優點

準確率整體很高，尤其是中文與票據場景
新版 PaddleOCR 3.0 提供 PP-OCRv5 等 pipeline，在印刷體、手寫、多語言上都做到 SOTA 級別，且兼顧雲端與邊緣設備效率。
速度快、GPU 支持好
有 GPU 時高吞吐、低延遲，適合批量發票/合同處理。
完整 Doc AI 能力
不只是「檢測 + 識別」，還有表格、公式、版面結構、圖表等多元素解析（例如 PaddleOCR-VL 覆蓋頁面級文檔解析與元素級識別，支援多語言）。
工程化做得比較完整
- 提供 end-to-end pipeline、配置文件、預訓練模型、部署示例（含 Serving、推理引擎、移動端）。
- 對中文場景（票據、身份證、車牌等）有很多針對性模型與 demo。
精度/速度兼具的輕量模型
PP-OCR 系列有 mobile / server 版本，方便針對 edge device 或雲端調整。

缺點

技術棧是 PaddlePaddle
若主力在 PyTorch / TensorFlow，想自定義訓練可能需要多學一套生態。
CPU-only 大規模處理時延遲較大
沒有 GPU 的情況下，大規模文件流處理時 CPU 壓力較大。
社群與第三方資源相對 PyTorch 生態小
踩坑時可參考的範例會比較少。

適用場景

中英文混排文件、票據、身分證、表格、金融單據等結構化文檔。
有 GPU 的服務端系統，需要高吞吐、低延遲的批次 OCR。
想要「OCR + 文檔解析（表格/KIE）」一整套方案。

Tesseract：優缺點

優點

歷史悠久、穩定、跨平台
原本由 HP 開發，後來開源並由社群維護，在 Linux/Windows/macOS 都很好裝，系統層整合成熟。
多語言支援非常完整
原生支援 100+ 語言與多種文字系統，也可以自己訓練新語言或特殊字型。
配置靈活
- 支援多種 page segmentation mode，可針對不同版面調整。
- 可輸出 TXT、hOCR、PDF（可搜尋）、TSV 等多格式。
C++ 實作，便於嵌入傳統系統
很多現有系統（C++/Java/.NET）都有 wrapper，可在不依賴 GPU 的情況下穩定跑。

缺點

對影像品質/前處理高度敏感
若圖像噪聲大、解析度低、對比差，效果會明顯變差。
對場景文字、噪聲圖片、手寫支持較弱
與深度學習框架相比，在噪聲、透視變形、戶外招牌等表現較差。
調參較繁瑣，訓練門檻偏高
自訓流程和工具偏「老派」，不如 PaddleOCR / MMOCR 友善。

適用場景

已有大量現成掃描 PDF / TIFF，版面規則、品質高。
想要一個「幾乎不需要 GPU，只佔少量資源」的 OCR 引擎。
在 C++ / 傳統後端系統裡嵌入簡單 OCR 能力。

EasyOCR：優缺點

優點

PyTorch + Python，極易上手
幾行 Python 就能跑起來，安裝依賴也相對簡單。
支援 80+ 語言，含中/日/韓等複雜文字
可覆蓋多數常見語言，對 CJK 等支持不錯。
對噪聲圖片與場景文字表現好
深度學習模型在自然場景文字、混合語言文檔上通常比 Tesseract 穩定。
對手寫文字效果比 Tesseract 好
在手寫/低質量圖片上多半優於 Tesseract。

缺點

工程化與生態相對薄弱
比較像「好用的 Python 函式庫」，缺少完整 model zoo、訓練工具、Doc parsing 能力。
自定義訓練支持不如 MMOCR/PaddleOCR 完整
做大規模自訓或複雜 pipeline 比較麻煩。
長期維護與社群相對小
與 Tesseract、Paddle、OpenMMLab 相比，採用案例與社群資源較少。

適用場景

Python / PyTorch 技術棧，想快速在小專案中加上 OCR。
場景文字、低質量圖像、手寫表單等，需要對噪聲有較強魯棒性。
資源有限、不想上太重的框架（如 Paddle 全家桶、OpenMMLab）。

MMOCR：優缺點

優點

OpenMMLab 生態的一部分
基於 PyTorch 和 MMDetection，支援文字檢測、識別、關鍵資訊抽取等多任務，整合多種 SOTA 模型。
模組化設計非常強
backbone / neck / head / loss 都可以自由組合，與其他 OpenMMLab 專案概念一致。
研究與實驗友好
支援多個公開資料集，提供可視化、評估工具、data converter，適合做 academic-style 模型對比。
下游任務支持
除了純 OCR，還有 KIE、NER 等模組，可做票據/表單理解整套 pipeline。

缺點

上手成本比 EasyOCR / Tesseract 高
需要理解 OpenMMLab 的配置系統與訓練/推理流程。
更偏研究與高階工程
如果只是「圖片 → 文字」，用 PaddleOCR / EasyOCR 會輕鬆很多。
部署略重
依賴 PyTorch 和 OpenMMLab，對資源受限環境不友善。

適用場景

想做自訓模型、對比多種 detection/recognition 架構。
已經在用 OpenMMLab（MMDetection 等），希望共用一套工具鏈。
需要 KIE / 票據理解 / 文檔結構化等高階任務。

選型建議（按需求）

1. 後端／算法工程師：中文票據 & 金融文檔系統

首選：PaddleOCR
- 現成的中文票據、身份證、車牌等模型 + 高精度文件解析（表格/版面）。
- 有 GPU 時吞吐量優勢明顯。
備選：MMOCR
- 若希望以 PyTorch 為主、做更多自定義訓練與實驗。

2. 街景招牌 / 監控視頻文字 / 手寫表單

優先看：PaddleOCR 的場景文字模型、EasyOCR、MMOCR
- PaddleOCR：有針對場景文字的檢測/識別模型。
- EasyOCR：在噪聲圖片與手寫上的表現和速度都不錯。
- MMOCR：方便快速試多種 detector/recognizer 組合。
不太推薦：Tesseract
對噪聲/透視/背景複雜的場景文字表現偏弱。

3. 輕量級、偶爾跑一下 OCR

Tesseract：
- 命令列工具，跨平台，資源佔用小。
EasyOCR（Python 專案）：
- pip install + 幾行 Python，即可在腳本裡完成圖片 → 文字。

PaddleOCR / MMOCR 更適合長期工程專案，而不是零星腳本。

總結：以 PaddleOCR 為中心怎麼選

已經決定用 PaddleOCR 的話：
- 主要做「中文文檔 / 票據 / 表格」→ PaddleOCR 幾乎是開源裡最合理的首選。
- 後續要做 Doc AI（KIE、版面理解、多語系）→ 利用 PaddleOCR 3.0 / PaddleOCR-VL 的能力可以省很多時間。
什麼時候考慮改用或搭配其他方案？
- 想完全基於 PyTorch / OpenMMLab 生態做研究 → 上 MMOCR。
- 只要輕量、命令列工具，且圖片品質很好 → 用 Tesseract 即可。
- 快速原型或小型 Python 專案，重場景文字和手寫 → 加一個 EasyOCR 最快。