深度感知技術與裝置完整整理
目錄
Record3D 與 Android
現狀
- Record3D 應用程式僅支援 iOS 裝置 (iPhone 和 iPad)
- 需要配備 FaceID (TrueDepth 相機) 或 LiDAR 感應器
- 沒有官方的 Android 版本
Android 替代方案
1. 具有深度感應器的 Android 手機
- 部分高階 Android 手機(如三星 Galaxy S 系列某些型號)配備:
- LiDAR 感應器
- ToF (飛時測距) 感應器
- 可搜尋專門利用這些感應器的 Android 應用程式
2. 其他 3D 掃描應用程式
Google Play 商店中可用的替代應用:
- Matterport Capture: 專業 3D 掃描應用
- KIRI Engine: 3D 建模工具
- Polycam: 點雲與 3D 內容生成
3. 開源函式庫
- Record3D 提供開源的 C++ 和 Python 函式庫
- 跨平臺支援: Windows、Mac、Linux
- 開發者可研究如何與支援深度相機的 Android 裝置結合使用
Intel RealSense 硬體綁定
librealsense 的開源狀態
SDK 本身
- librealsense 函式庫是開源的
- 允許使用者在各種平臺上編譯、修改和部署
- 提供 API 存取相機的原始資料流(深度、色彩、紅外線影像)
核心演算法
- 立體視覺演算法 (Stereo Algorithms) 是閉源的
- 在相機內部的硬體中執行
- 屬於 Intel 的專有智慧財產 (IP)
- 使用者無法看到或修改
SDK 提供的開源功能
- 後處理濾波器
- 點雲生成
- 影像對齊
- 大量開源範例程式碼 (ROS wrapper、Python bindings 等)
- 視覺 SLAM 範例
結論
使用者可以免費使用和修改 librealsense 的開源程式碼來操作 RealSense 相機,但相機內部最關鍵的「深度計算」演算法是 Intel 預先燒錄在硬體中的閉源程式碼。
主要深度相機技術比較
| 裝置/技術 | 技術原理 | 主要用途 | 開源狀態 (SDK/演算法) | 綁定特定硬體? |
|---|---|---|---|---|
| Intel RealSense | 立體視覺 + IR | 機器人、AR/VR、工業 | SDK 開源 (librealsense),但核心演算法閉源 | 是 (Intel RealSense 相機) |
| Apple TrueDepth | 結構光 | Face ID、近距離掃描 | 閉源 | 是 (iPhone/iPad 前置相機) |
| Apple LiDAR | 飛時測距 (ToF) | AR、環境掃描 | 閉源 (透過 Apple API 使用) | 是 (iPhone Pro/iPad Pro 後置) |
| Microsoft Azure Kinect DK | 飛時測距 (ToF) | 研究、醫療、開發 | SDK 開源 | 是 (Azure Kinect 硬體) |
| Orbbec (奧比中光) | ToF / 結構光 | 工業、機器人 | SDK 開源 (支援多平臺) | 是 (Orbbec 相機) |
| Stereolabs ZED | 被動立體視覺 | AR/VR、機器人導航 | SDK 閉源,但提供免費 API | 是 (ZED 相機) |
| Luxonis OAK-D | 立體視覺 + AI | 嵌入式 AI、機器人 | SDK 開源 (DepthAI) | 是 (OAK-D 相機) |
技術原理詳解
1. 結構光 (Structured Light)
運作原理
- 投射超過 30,000 個不可見的紅外線光點圖案
- 紅外線相機捕捉圖案的變形
- 根據圖案變形計算深度圖
優點
- 近距離(15-40cm)精度極其高
- 光點密度極高,適合捕捉精細特徵
- 功耗低
缺點
- 在強烈陽光下表現不佳
- 只適合近距離應用
- 對反光表面敏感
代表裝置
- Apple TrueDepth
- Microsoft Kinect v1
2. 立體視覺 (Stereo Vision)
運作原理
- 使用兩個紅外線 (IR) 鏡頭
- 模擬人眼工作原理
- 透過視差 (disparity) 計算深度
- 主動式紅外線投射器在低光源環境輔助照明
優點
- 設計用於更廣泛的應用
- 受環境光影響較小 (相對不受強烈陽光影響)
- 有效範圍從幾十公分延伸到數公尺甚至十公尺以上
- 相對不受環境光源影響
- 較大的視野 (FoV)
- 開源 SDK 提供高度客製化
- 易於多感應器同步
缺點
- 計算量較大
- 需要紋理豐富的場景效果最佳
代表裝置
- Intel RealSense D400/D455 系列
- Stereolabs ZED
- Luxonis OAK-D
3. 飛時測距 (ToF - Time-of-Flight)
運作原理
- 測量光線飛行時間來計算距離
- 發射光脈衝並測量反射返回時間
- 計算距離 = (光速 × 飛行時間) / 2
優點
- 測量速度快
- 距離遠 (通常 1-10+ 公尺)
- 硬體設計相對簡單
- 不受紋理影響
缺點
- 解析度通常較低 (近年有改善)
- 對多重反射敏感 (例如鏡面環境)
代表裝置
- Microsoft Azure Kinect
- Apple LiDAR (iPhone Pro/iPad Pro)
- Orbbec Femto Bolt/Mega
- Android 高階手機的 ToF 感應器
Intel RealSense vs Apple TrueDepth
技術原理比較
| 特性 | Intel RealSense (D400系列) | Apple TrueDepth |
|---|---|---|
| 技術 | 立體視覺 (Stereo Vision) | 結構光 (Structured Light) |
| 運作方式 | 使用兩個紅外線鏡頭,透過視差計算深度 | 投射 30,000+ 紅外線光點,捕捉變形計算深度 |
效能與精確度比較
TrueDepth 的優勢
- 極近距離的高精確度: 專為 Face ID 和近距離掃描設計
- 有效範圍: 15-40cm
- 光點密度極高,適合捕捉精細的臉部特徵或小型物體掃描
- 整合與便攜性: 內建於 iPhone/iPad,極其便攜,功耗較低
RealSense 的優勢
- 彈性的操作距離: 設計用於更廣泛應用(機器人導航、工業自動化、AR/VR)
- 有效範圍: 通常從幾十公分延伸到數公尺甚至十公尺以上(D455 可達 4m+)
- 穩健性與環境適應性:
- 相對不受環境光源影響(儘管極低光需要輔助照明)
- 能處理較大的視野 (FoV)
- 彈性與擴展性:
- USB 外接設備,輕鬆連接各種電腦和開發平臺
- 透過開源 SDK 進行高度客製化
- 支援多感應器同步
應用場景選擇
| 應用場景 | 推薦選擇 | 原因 |
|---|---|---|
| 近距離 (15-40cm) 3D 掃描/人臉識別 | TrueDepth | 專為此範圍設計,光點密度極高,精確度出色 |
| 中/遠距離 (1m+) 環境感知/機器人導航 | RealSense | 設計用於較遠距離和較大視野,性能穩定,應用場景廣泛 |
| 便攜性與整合性 | TrueDepth | 內建於行動裝置,方便隨身攜帶 |
| 開發彈性與跨平臺支援 | RealSense | USB 外接,支援多種作業系統和開源函式庫 |
市面上的替代方案
1. 其他獨立深度相機
Microsoft Azure Kinect DK
- 技術: 飛時測距 (ToF)
- 特點: 功能非常強大,高解析度深度感測器和高畫質 RGB 鏡頭
- 性能: 深度資料的系統誤差和解析度表現出色
- 狀態: 微軟已停產,但市面上仍有許多使用其技術的替代品
- SDK: 開源
Orbbec (奧比中光)
- 技術: ToF / 結構光
- 產品線: Astra 系列、Femto Mega、Femto Bolt
- 優勢: Intel RealSense 和 Azure Kinect 的主要競爭對手
- Femto Bolt/Mega: 繼承 Azure Kinect 的技術,採用 ToF 原理,提供類似甚至更佳的性能
- 被視為: Azure Kinect 的直接替代品
- 生態: 支援多種平臺和開發生態系
- SDK: 開源 (支援多平臺)
Stereolabs ZED 系列
- 技術: 被動式立體視覺 (Stereo Vision)
- 特點: 與 RealSense 類似但功能更強大
- 使用: 通常需要連接到具備 GPU 的電腦才能即時處理深度資料
- 產品: ZED 2 或 ZED Mini
- 視野: 廣泛的視野和優秀的長距離測量能力
- 應用: AR/VR 和機器人導航
- SDK: 閉源,但提供免費 API
Luxonis OAK-D 系列
- 技術: 立體視覺 + 邊緣 AI 處理能力
- 特色: 內建 AI 模組,可直接在裝置上進行物體檢測和追蹤
- 優勢: 無需將所有原始資料傳回主機,非常適合嵌入式機器人應用
- SDK: 開源 (DepthAI)
2. 消費性行動裝置內建感應器
Apple LiDAR (光達)
- 搭載: iPhone Pro 和 iPad Pro 系列
- 技術: ToF (飛時測距)
- 應用: AR 應用,環境掃描
Android ToF 感應器
- 搭載: 許多高階 Android 手機(如三星 S 系列某些型號)
- 用途: 輔助對焦、人像模式景深計算與 AR 應用
3. 工業級與特定應用解決方案
Framos 工業相機
- 使用 Intel RealSense 技術製造
- 採用更堅固的外殼和工業標準連接器
Basler Stereo Camera
- 工業相機領域知名品牌
- 提供立體視覺解決方案
開源狀態總結
開源 SDK 是主流
大多數優良深度感知解決方案提供開源或免費使用的 SDK,方便開發者自由使用與修改:
- Intel RealSense: librealsense (開源)
- Microsoft Azure Kinect: Azure Kinect SDK (開源)
- Orbbec: 官方 SDK (開源,多平臺)
- Luxonis OAK-D: DepthAI (開源)
閉源核心演算法
- 感應器內部將原始資料轉換為深度圖的核心演算法通常是閉源,屬於製造商的重要智慧財產。
行動裝置生態系封閉
- Apple 的 TrueDepth 和 LiDAR 主要使用官方閉源 API,開發較封閉。
為什麼綁定硬體與不開源
綁定硬體的理由
- 性能最佳化:深度感測技術需專用光學元件與感測器,軟硬體緊密配合確保精確度與效能。
- 品質控制:固定硬體規格確保軟體穩定運行與結果可靠。
- 商業模式考量:軟硬體綁定成完整解決方案,維護硬體銷售利潤。
不開源核心演算法的理由
- 智慧財產權 (IP) 保護:核心演算法為企業重要競爭優勢,防止技術被免費分享及複製。
- 維持技術領先:防止競爭者輕易模仿,保護效能和精度優勢。
- 防範誤用與技術複雜性:深度演算法複雜,開源後易因誤用導致不穩定或錯誤結果。
- 商業化支援:閉源軟體為企業提供授權及專業支援形成獲利模式。
綜合說明
目前主流策略是:SDK 等介面層級開源,核心深度計算演算法閉源,以平衡生態推廣與技術、商業保護。
實用建議
選擇深度感知方案的決策樹
- 距離需求?
- 極近距離 (15-40cm): TrueDepth 或結構光相機
- 中距離 (1-4m): Intel RealSense 或立體視覺相機
- 遠距離 (3m+): Azure Kinect、ToF 相機、Apple LiDAR
- 便攜性或開發彈性?
- 便攜性: Apple TrueDepth / LiDAR
- 開發彈性: RealSense、OAK-D
- 預算考量?
- 低成本開源: Luxonis OAK-D
- 中等預算: Intel RealSense D435
- 專業級: Stereolabs ZED、Orbbec Femto
- Android 相容性?
- 是: Orbbec、OAK-D 或 USB 深度相機 + 轉接器
- 否: 其他適用