Harness + Loop Engineering

能力	做什麼
Plan & Todos	拆解大任務，依序執行
Filesystem & Bash	操作檔案、執行程式（搭配 sandbox）
Sub-Agent	把耗 token 的任務分給子代理人，隔離 context
Memory	跨 session 記得使用者與專案的長期資訊
Skills	按需動態載入的技能 prompt
更多工具	MCP、Browser、Computer Use

	核心問題	技術功能
Prompt Engineering	怎麼讓模型這一次答得更好	system prompt、few-shot、evals
Context Engineering	在 context window 限制下選擇該放的資訊	RAG、memory、compaction、tool offload
Harness Engineering	怎麼在執行過程中約束、檢查、動態修正	skills、filesystem、hooks

	運算式 Computational（確定性、程式工具）	推論式 Inferential（LLM 生成）
前饋 Feedforward 引導器 Guides（行動前引導）	用程式工具產生的 code metadata 與約束：LSP、Codemod／ast-grep、架構規則（ArchUnit 等）	system prompt、AGENTS.md、Skills、bootstrap instructions、how-to 文件
回饋 Feedback 感測器 Sensors（行動後修正）	測試、linter、type checker、靜態分析（eslint、semgrep）、pre-commit hook	LLM as Judge、AI code review、Review Skills

時機	多久觸發一次	成本	修正粒度	對應的 hook
① 工具執行內	每次 tool call	毫秒，最便宜	單一動作	Pre／PostToolUse
② request 之間注入	使用者或程式想注入時	趨近零	當前這一輪的方向	無專屬 hook
③ 單輪結束	每一輪	秒級	整輪的產出	Stop hook
④ 外層 Loop	每個 session	分鐘到小時	整個任務	排程／外迴圈

	Codex /goal	Claude Code /goal
回饋形式	重播同一份 continuation.md，只有 budget 數字在動	Haiku 寫的針對性診斷，指出 transcript 缺了什麼
下一步依據	環境證據(測試失敗、compile error等)＋自己保留的 reasoning	外部裁判指出缺口
成本代價	每輪多累積一份 prompt，但會有 prompt cache	每輪多一次 Haiku call，主 thread 只增加一小段 reason
失效模式	模型有盲點時無外部視角打破，可能連錯好幾輪	Haiku 誤判:會被自信的收尾語言騙過

	Codex 的 Goal	Claude Code 的 Goal	Claude Managed Agents Outcomes
誰來判定	主模型自我審計	獨立的 Haiku	全新 context 的 grader agent
harness 角色	不判斷，閒置時重播合約 prompt	每輪結束送 transcript 裁決	自動配置 grader 評估迴圈
看什麼證據	自己 context 裡的一切(含 reasoning)	刪減版 transcript	只看 artifact，實際操作驗收
怎麼宣告完成	主模型呼叫 `update_goal`	yes／no ＋診斷 reason	rubric 逐條 pass／fail
沒完成時的回饋	沒有診斷，只重播同一份模板	一段針對性診斷，指出缺什麼	逐條列出缺失，最具體

	獨立性／可靠度	單次評估成本	錯誤多久被發現
Codex 自我審計	低:主模型自評	趨近零:只查狀態	靠模型自己就先發現
Claude Code Haiku	中:獨立小模型讀 transcript	小:約 1-2 秒	每 turn 一次
Outcome grader	高:獨立 agent 操作 artifact	高:數十倍、約 8 分鐘	整個 iteration 做完才抓到

Judge 看什麼: 每題有不同的 rubric，根據逐字稿判斷

不同題目有不同的完成標準(rubric)，用小模型根據逐字稿來判斷:

QUESTION_WORKFLOW = [
  { "title": "最近一次使用情境",
    "completion_criteria":
      "需含最近一次使用的具體情境，"
      "至少提到使用的功能與當時任務。" },
  { "title": "替代方案",
    "completion_criteria":
      "需提到至少一個替代方案，"
      "最好指出最常用者與原因。" },
  # …其餘題目
]

You are a user interview quality reviewer.
Use only the transcript below. Do not infer
facts that are not in the transcript.

Current question: {question}
Completion criteria: {completion_criteria}
Transcript: {transcript}

Return exactly one character:
Y if complete. N if not.

	管什麼	回答的問題
外層 Loop	scheduling 排程	什麼時候跑、多久跑一次
Goal	termination 終止	做到什麼程度才能停

Harness + Loop Engineering

我是誰

Agenda

預期聽眾

Recap:什麼是 Deep Agent

複習 Agent 1.0 迴圈

Agent 2.0 (Deep Agent) 的六項能力

Deep Agent 內建能力 ①: Plan & Todos

它解決什麼問題

技術上怎麼辦到

Deep Agent 內建能力 ②: Filesystem & Bash

它解決什麼問題

技術上怎麼辦到

Deep Agent 內建能力 ③: Sub-Agent

它解決什麼問題

技術上怎麼辦到

Deep Agent 內建能力 ④: Memory

它解決什麼問題

技術上怎麼辦到

Deep Agent 內建能力 ⑤: Skills

它解決什麼問題

技術上怎麼辦到

Deep Agent 內建能力 ⑥: 更多工具

它解決什麼問題

技術上怎麼辦到

但有能力 ≠ 把事情做好

✓ 能力給了你能不能做

? 但是做得對不對 · 做完了沒

什麼是Harness Engineering

「做完了」誰說了算?

這不是個案

什麼是 Harness? Agent = Model + Harness

小小吐槽

首先，harness 不只是技術功能列表

不是這個

真正的主軸

回顧 Prompt、Context、Harness 三層

Harness 核心策略: 先 generate，再 verify

常見失敗

解法: generate → verify → fix

兩個軸把 harness 拆解

好的 Harness 做兩件事

Guides 前饋

Sensors 回饋

前饋 Guides

Claude Code

Codex

前饋的限制

回饋 Sensors: 把 verify 變成自動執行

當然，前饋和回饋缺一不可

若只有回饋、沒有前饋

若只有前饋、沒有回饋

回饋的四個時機點

回饋的四個時機 ①②③④

在工具執行內

Tool Call 裡面

執行前: 驗證輸入

執行後: 檢查結果

工具回傳值+夾帶指引

工具輸出不只是 function output，是你寫給 Agent 的回饋

案例: Text-to-SQL Agent

場景

LLM 生成 SQL 的風險

在工具內: 把 SQL 解析成語法樹(AST)，做確定性的檢查和改寫

工具回饋的設計

爛 error

好 error

連「成功」都可以回傳更多狀態資訊

陽春的成功 flag

回傳更多狀態資訊

工具回傳的引導訊息

運算式檢查（固定訊息）

語意 judge（當場生成）

設計回傳值的另一個重點: 需要有意識地控制 context window

Context Offloading

檢索技術

Sub-Agent

案例: 知識庫 RAG Agent

標註來源與分數

同源就 load 整頁

Recap:
什麼是 Deep Agent

什麼是
Harness Engineering

工具輸出不只是 function output，
是你寫給 Agent 的回饋

`<facets>` 揭露隱藏資料

`<system-instruction>` 額外的指示

兩次 model request 之間，
把訊息注入執行中的 agent

單輪結束的
Goal 與 Outcomes

Rubric 評分條件範例