Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

AI 寫程式的終極悖論:你越依賴它,越需要人類思考

AI 不是越聰明就越好用。研究顯示,當 context 達到 32k tokens,多數模型效能會降到 50% 以下。

Stack Overflow 2025 年調查指出:雖然 84% 開發者正在使用 AI 工具,但信任度首次下降,從 2023-2024 年的 70% 以上降到 60%。更驚人的是,METR 研究顯示,資深開發者主觀認為 AI 讓他們快 20%,但客觀測試結果是慢了 19%。

這不是生產力提升,而是虛假繁榮。

問題不只在模型,而在 Context 工程

17 歲時在 NASA JPL 協助研究人員建立月球導航工具的 Dex Horthy,之後在 Replicated 工作 7 年,協助 Hashicorp、DataStax 等團隊交付複雜系統,並於 2023 年創立 HumanLayer(YC F24)。

他的觀點是:

AI 寫程式的問題不是模型太笨,而是你不懂 Context 工程。

Context 工程可視為管理 AI 的工作記憶:

  • 你丟進去的內容越雜,模型越難抓住重點
  • 對話、錯誤訊息、重複資料會快速污染上下文
  • 性能退化常常不是漸進,而是突然崩落

Chroma Research 指出,號稱 200k tokens 的模型,實務上通常在 130k 左右就開始不穩定。

為什麼你越糾錯,它可能越容易錯

AI 沒有長期記憶,下一次輸出只受當前 context 影響。若你持續在同一串對話中糾錯,它看到的模式可能變成「錯誤 → 修正 → 再錯誤」,進而提高再次出錯機率。

這就是悖論:你越想修正它,它越可能重複犯錯。

面對大型程式碼庫:用 RPI 模式

HumanLayer 提出 RPIResearch -> Plan -> Implement

1. Research:用 FAR 驗證

先讓 AI 探索 codebase,只找事實,不做修改。

  • Factual:發現必須來自實際程式,不是猜測
  • Actionable:要給出具體檔案路徑與行號
  • Relevant:只保留與任務直接相關的資訊

2. Plan:用 FACTS 驗證

每個任務都應通過以下檢查:

  • Feasible:在當前環境可完成
  • Atomic:一次只做一件事
  • Clear:檔名、行號、片段明確
  • Testable:有具體驗證步驟
  • Scoped:清楚定義會改什麼、不改什麼

沒有程式碼片段的計畫,通常只是感覺,不具執行力。

3. Implement:低壓力、精準執行

有了通過 FACTS 的計畫,再在低 context 壓力下落地;即使是較弱模型,也能更穩定完成高品質修改。

RPI 的核心權衡是:犧牲速度,換取清晰度、可預測性與正確性。

兩個實戰技巧

意圖壓縮(Intent Compression)

當對話開始失真,直接切斷:

  1. 要求 AI 壓縮關鍵研究結果
  2. 只保留「可驗證事實」
  3. 用摘要開一個全新 context

Sub-agents 分片

Sub-agents 不是擬人化角色,而是資訊分片工具。

  1. 派子代理在獨立視窗大量閱讀
  2. 過濾雜訊
  3. 只回傳極簡壓縮事實給主代理

這能讓主 Agent 維持敏捷,聚焦核心推理。

何時該停下來,交還給人類

AI 的價值在於放大:

  • 能放大你已完成的思考
  • 也能放大你沒想清楚的漏洞

根據統計,AI 產生 46% 程式碼,但僅約 30% 會被開發者直接接受,代表約 70% 建議會被拒絕或修改。

當 RPI 一再失敗,就是訊號:當前複雜度已超過 AI 可控範圍,必須回到白板由人類重整邏輯。

立刻可做的 3 件事

  1. 下次用 AI 前,先用 FAR 檢查你的問題是否基於事實、可行動、且相關。
  2. 先要計畫再要程式碼:計畫必須含檔名、行號、測試步驟。
  3. 對話超過 20 輪就壓縮重啟:保留關鍵發現,重開新對話。

結語

未來 99% 程式碼可能由 AI 生成,但頂尖與普通開發者的差距,在於誰能在 AI 時代保有思考主權。

你要當教 AI 思考的人,還是被 AI 牽著走的人?