Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

深度感知技術與裝置完整整理

目錄

  1. Record3D 與 Android
  2. 主要深度相機技術比較
  3. 技術原理詳解
  4. Intel RealSense vs Apple TrueDepth
  5. 市面上的替代方案
  6. 開源狀態總結
  7. 為什麼綁定硬體與不開源

Record3D 與 Android

現狀

  • Record3D 應用程式僅支援 iOS 裝置 (iPhone 和 iPad)
  • 需要配備 FaceID (TrueDepth 相機)LiDAR 感應器
  • 沒有官方的 Android 版本

Android 替代方案

1. 具有深度感應器的 Android 手機

  • 部分高階 Android 手機(如三星 Galaxy S 系列某些型號)配備:
    • LiDAR 感應器
    • ToF (飛時測距) 感應器
  • 可搜尋專門利用這些感應器的 Android 應用程式

2. 其他 3D 掃描應用程式

Google Play 商店中可用的替代應用:

  • Matterport Capture: 專業 3D 掃描應用
  • KIRI Engine: 3D 建模工具
  • Polycam: 點雲與 3D 內容生成

3. 開源函式庫

  • Record3D 提供開源的 C++ 和 Python 函式庫
  • 跨平臺支援: Windows、Mac、Linux
  • 開發者可研究如何與支援深度相機的 Android 裝置結合使用

Intel RealSense 硬體綁定

librealsense 的開源狀態

SDK 本身

  • librealsense 函式庫是開源的
  • 允許使用者在各種平臺上編譯、修改和部署
  • 提供 API 存取相機的原始資料流(深度、色彩、紅外線影像)

核心演算法

  • 立體視覺演算法 (Stereo Algorithms) 是閉源的
  • 在相機內部的硬體中執行
  • 屬於 Intel 的專有智慧財產 (IP)
  • 使用者無法看到或修改

SDK 提供的開源功能

  • 後處理濾波器
  • 點雲生成
  • 影像對齊
  • 大量開源範例程式碼 (ROS wrapper、Python bindings 等)
  • 視覺 SLAM 範例

結論

使用者可以免費使用和修改 librealsense 的開源程式碼來操作 RealSense 相機,但相機內部最關鍵的「深度計算」演算法是 Intel 預先燒錄在硬體中的閉源程式碼。


主要深度相機技術比較

裝置/技術技術原理主要用途開源狀態 (SDK/演算法)綁定特定硬體?
Intel RealSense立體視覺 + IR機器人、AR/VR、工業SDK 開源 (librealsense),但核心演算法閉源是 (Intel RealSense 相機)
Apple TrueDepth結構光Face ID、近距離掃描閉源是 (iPhone/iPad 前置相機)
Apple LiDAR飛時測距 (ToF)AR、環境掃描閉源 (透過 Apple API 使用)是 (iPhone Pro/iPad Pro 後置)
Microsoft Azure Kinect DK飛時測距 (ToF)研究、醫療、開發SDK 開源是 (Azure Kinect 硬體)
Orbbec (奧比中光)ToF / 結構光工業、機器人SDK 開源 (支援多平臺)是 (Orbbec 相機)
Stereolabs ZED被動立體視覺AR/VR、機器人導航SDK 閉源,但提供免費 API是 (ZED 相機)
Luxonis OAK-D立體視覺 + AI嵌入式 AI、機器人SDK 開源 (DepthAI)是 (OAK-D 相機)

技術原理詳解

1. 結構光 (Structured Light)

運作原理

  • 投射超過 30,000 個不可見的紅外線光點圖案
  • 紅外線相機捕捉圖案的變形
  • 根據圖案變形計算深度圖

優點

  • 近距離(15-40cm)精度極其高
  • 光點密度極高,適合捕捉精細特徵
  • 功耗低

缺點

  • 在強烈陽光下表現不佳
  • 只適合近距離應用
  • 對反光表面敏感

代表裝置

  • Apple TrueDepth
  • Microsoft Kinect v1

2. 立體視覺 (Stereo Vision)

運作原理

  • 使用兩個紅外線 (IR) 鏡頭
  • 模擬人眼工作原理
  • 透過視差 (disparity) 計算深度
  • 主動式紅外線投射器在低光源環境輔助照明

優點

  • 設計用於更廣泛的應用
  • 受環境光影響較小 (相對不受強烈陽光影響)
  • 有效範圍從幾十公分延伸到數公尺甚至十公尺以上
  • 相對不受環境光源影響
  • 較大的視野 (FoV)
  • 開源 SDK 提供高度客製化
  • 易於多感應器同步

缺點

  • 計算量較大
  • 需要紋理豐富的場景效果最佳

代表裝置

  • Intel RealSense D400/D455 系列
  • Stereolabs ZED
  • Luxonis OAK-D

3. 飛時測距 (ToF - Time-of-Flight)

運作原理

  • 測量光線飛行時間來計算距離
  • 發射光脈衝並測量反射返回時間
  • 計算距離 = (光速 × 飛行時間) / 2

優點

  • 測量速度快
  • 距離遠 (通常 1-10+ 公尺)
  • 硬體設計相對簡單
  • 不受紋理影響

缺點

  • 解析度通常較低 (近年有改善)
  • 對多重反射敏感 (例如鏡面環境)

代表裝置

  • Microsoft Azure Kinect
  • Apple LiDAR (iPhone Pro/iPad Pro)
  • Orbbec Femto Bolt/Mega
  • Android 高階手機的 ToF 感應器

Intel RealSense vs Apple TrueDepth

技術原理比較

特性Intel RealSense (D400系列)Apple TrueDepth
技術立體視覺 (Stereo Vision)結構光 (Structured Light)
運作方式使用兩個紅外線鏡頭,透過視差計算深度投射 30,000+ 紅外線光點,捕捉變形計算深度

效能與精確度比較

TrueDepth 的優勢

  • 極近距離的高精確度: 專為 Face ID 和近距離掃描設計
  • 有效範圍: 15-40cm
  • 光點密度極高,適合捕捉精細的臉部特徵或小型物體掃描
  • 整合與便攜性: 內建於 iPhone/iPad,極其便攜,功耗較低

RealSense 的優勢

  • 彈性的操作距離: 設計用於更廣泛應用(機器人導航、工業自動化、AR/VR)
  • 有效範圍: 通常從幾十公分延伸到數公尺甚至十公尺以上(D455 可達 4m+)
  • 穩健性與環境適應性:
    • 相對不受環境光源影響(儘管極低光需要輔助照明)
    • 能處理較大的視野 (FoV)
  • 彈性與擴展性:
    • USB 外接設備,輕鬆連接各種電腦和開發平臺
    • 透過開源 SDK 進行高度客製化
    • 支援多感應器同步

應用場景選擇

應用場景推薦選擇原因
近距離 (15-40cm) 3D 掃描/人臉識別TrueDepth專為此範圍設計,光點密度極高,精確度出色
中/遠距離 (1m+) 環境感知/機器人導航RealSense設計用於較遠距離和較大視野,性能穩定,應用場景廣泛
便攜性與整合性TrueDepth內建於行動裝置,方便隨身攜帶
開發彈性與跨平臺支援RealSenseUSB 外接,支援多種作業系統和開源函式庫

市面上的替代方案

1. 其他獨立深度相機

Microsoft Azure Kinect DK

  • 技術: 飛時測距 (ToF)
  • 特點: 功能非常強大,高解析度深度感測器和高畫質 RGB 鏡頭
  • 性能: 深度資料的系統誤差和解析度表現出色
  • 狀態: 微軟已停產,但市面上仍有許多使用其技術的替代品
  • SDK: 開源

Orbbec (奧比中光)

  • 技術: ToF / 結構光
  • 產品線: Astra 系列、Femto Mega、Femto Bolt
  • 優勢: Intel RealSense 和 Azure Kinect 的主要競爭對手
  • Femto Bolt/Mega: 繼承 Azure Kinect 的技術,採用 ToF 原理,提供類似甚至更佳的性能
  • 被視為: Azure Kinect 的直接替代品
  • 生態: 支援多種平臺和開發生態系
  • SDK: 開源 (支援多平臺)

Stereolabs ZED 系列

  • 技術: 被動式立體視覺 (Stereo Vision)
  • 特點: 與 RealSense 類似但功能更強大
  • 使用: 通常需要連接到具備 GPU 的電腦才能即時處理深度資料
  • 產品: ZED 2 或 ZED Mini
  • 視野: 廣泛的視野和優秀的長距離測量能力
  • 應用: AR/VR 和機器人導航
  • SDK: 閉源,但提供免費 API

Luxonis OAK-D 系列

  • 技術: 立體視覺 + 邊緣 AI 處理能力
  • 特色: 內建 AI 模組,可直接在裝置上進行物體檢測和追蹤
  • 優勢: 無需將所有原始資料傳回主機,非常適合嵌入式機器人應用
  • SDK: 開源 (DepthAI)

2. 消費性行動裝置內建感應器

Apple LiDAR (光達)

  • 搭載: iPhone Pro 和 iPad Pro 系列
  • 技術: ToF (飛時測距)
  • 應用: AR 應用,環境掃描

Android ToF 感應器

  • 搭載: 許多高階 Android 手機(如三星 S 系列某些型號)
  • 用途: 輔助對焦、人像模式景深計算與 AR 應用

3. 工業級與特定應用解決方案

Framos 工業相機

  • 使用 Intel RealSense 技術製造
  • 採用更堅固的外殼和工業標準連接器

Basler Stereo Camera

  • 工業相機領域知名品牌
  • 提供立體視覺解決方案

開源狀態總結

開源 SDK 是主流

大多數優良深度感知解決方案提供開源或免費使用的 SDK,方便開發者自由使用與修改:

  • Intel RealSense: librealsense (開源)
  • Microsoft Azure Kinect: Azure Kinect SDK (開源)
  • Orbbec: 官方 SDK (開源,多平臺)
  • Luxonis OAK-D: DepthAI (開源)

閉源核心演算法

  • 感應器內部將原始資料轉換為深度圖的核心演算法通常是閉源,屬於製造商的重要智慧財產。

行動裝置生態系封閉

  • Apple 的 TrueDepth 和 LiDAR 主要使用官方閉源 API,開發較封閉。

為什麼綁定硬體與不開源

綁定硬體的理由

  • 性能最佳化:深度感測技術需專用光學元件與感測器,軟硬體緊密配合確保精確度與效能。
  • 品質控制:固定硬體規格確保軟體穩定運行與結果可靠。
  • 商業模式考量:軟硬體綁定成完整解決方案,維護硬體銷售利潤。

不開源核心演算法的理由

  • 智慧財產權 (IP) 保護:核心演算法為企業重要競爭優勢,防止技術被免費分享及複製。
  • 維持技術領先:防止競爭者輕易模仿,保護效能和精度優勢。
  • 防範誤用與技術複雜性:深度演算法複雜,開源後易因誤用導致不穩定或錯誤結果。
  • 商業化支援:閉源軟體為企業提供授權及專業支援形成獲利模式。

綜合說明

目前主流策略是:SDK 等介面層級開源,核心深度計算演算法閉源,以平衡生態推廣與技術、商業保護。


實用建議

選擇深度感知方案的決策樹

  1. 距離需求?
    • 極近距離 (15-40cm): TrueDepth 或結構光相機
    • 中距離 (1-4m): Intel RealSense 或立體視覺相機
    • 遠距離 (3m+): Azure Kinect、ToF 相機、Apple LiDAR
  2. 便攜性或開發彈性?
    • 便攜性: Apple TrueDepth / LiDAR
    • 開發彈性: RealSense、OAK-D
  3. 預算考量?
    • 低成本開源: Luxonis OAK-D
    • 中等預算: Intel RealSense D435
    • 專業級: Stereolabs ZED、Orbbec Femto
  4. Android 相容性?
    • 是: Orbbec、OAK-D 或 USB 深度相機 + 轉接器
    • 否: 其他適用

相關資源

GitHub 開源專案

官方文件