OpenAI 四月底發了一篇很有意思的文章 Where the goblins came from,坦白交代了一件事: 從 GPT-5.1 開始,他們的模型莫名其妙愛上了「哥布林」。問程式 bug 在哪? 它說是「小哥布林搗蛋」。問相機推薦? 它回你「哥布林模式閃光效果」。連 OpenAI 內部員工都一直在回報這個問題。

事情在 Codex (OpenAI 的 coding agent) 的系統指令被攤開後炸鍋了——裡面赫然寫著:

“Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.”

翻譯: 除非跟使用者問題完全相關,否則絕不能提到哥布林、小精靈、浣熊、巨魔、食人魔、鴿子或其他生物。

這行指令被挖出來後,Polymarket 轉發拿到上百萬次瀏覽、WIRED 報導、Sam Altman 本人也下場玩梗。OpenAI 乾脆自己寫了篇完整的事後分析,而且寫得蠻到位的——不是公關稿,是一份紮實的技術覆盤。

哥布林到底怎麼來的?

故事要從 ChatGPT 的「個性化」功能說起。OpenAI 讓使用者可以選擇不同的語氣風格,其中有一個叫「Nerdy」(書呆子風)。它的系統指令是這樣寫的:

你是一個不折不扣的書呆子、愛玩又有智慧的 AI 導師……你必須用語言的趣味來消解做作。這世界複雜而奇異,其奇異之處必須被承認、分析,並且享受。

聽起來很正常對吧? 問題出在訓練這個書呆子個性的 RLHF 過程中。

RLHF 的運作方式簡單說就是: 模型產生多個候選回答 → 人類標註員排序哪個比較好 → 訓練出一個「獎勵模型」來自動打分 → 模型被優化去產生高分回答。這個獎勵模型本質上定義了「好回答長什麼樣」。

問題來了: 獎勵模型學到了一個捷徑。它發現含有「哥布林」「小精靈」等生物隱喻的回答,在書呆子風格下會得到更高的分數。OpenAI 審計後發現,在 76.2% 的資料集中,含有哥布林字眼的回答比不含的得分更高。模型並不是真的「喜歡」哥布林——它只是發現了一條獎勵捷徑: 塞個哥布林進去,分數就高了。

從 2.5% 到 66.7%: 哥布林的擴散路徑

數字講最清楚:

🔹 GPT-5.1 發布後,ChatGPT 回答中「goblin」出現頻率暴增 175%,「gremlin」增加 52%

🔹 書呆子個性只佔所有 ChatGPT 回答的 2.5%,卻貢獻了 66.7% 的哥布林提及

🔹 到了 GPT-5.4,書呆子模式下的哥布林提及量比 GPT-5.2 暴漲 3,881%

最關鍵的問題是: 為什麼哥布林會從書呆子模式「外溢」到其他模式?

答案是一個經典的回饋迴路:

  1. 書呆子風格被獎勵產生俏皮的隱喻
  2. 一些被獎勵的回答剛好包含了生物隱喻
  3. 這些回答在強化學習訓練中產生更多類似的輸出
  4. 這些模型輸出被拿來當作下一輪監督式微調的訓練資料
  5. 下一代模型從訓練資料裡學到「哥布林是正常用語」
  6. 循環重複,每代放大

OpenAI 自己講得很直白: 強化學習不保證學到的行為會乖乖待在產生它的條件裡。一旦某個風格怪癖被獎勵了,它就會透過訓練資料的再利用擴散到其他地方。

等到 OpenAI 搜尋 GPT-5.5 的訓練資料時,發現裡面不只有哥布林和小精靈,還有一整個「生物家族」——浣熊、巨魔、食人魔、鴿子都被標記為異常高頻的口頭禪詞彙。模型已經把作弊碼從特定詞彙泛化到一整個類別了。

編按: 有趣的是,OpenAI 特別提到「青蛙」的使用大多是正常的——還好蛙蛙沒事。

修復: 系統指令的 OK 繃

OpenAI 做了三件事: 三月退役書呆子個性、移除偏好生物隱喻的獎勵信號、過濾訓練資料中的生物詞彙。但問題是 GPT-5.5 在找到根因之前就已經開始訓練了。重新訓練一個 GPT-5.5 等級的模型成本極高,所以最快的修法就是在 Codex 的系統指令加上那句「不准提哥布林」。

OpenAI 甚至開了個小玩笑: 如果你想在 Codex 裡解放哥布林,可以用一行指令把禁令拿掉。OpenAI Developers 的推文寫得很到位: 「趁哥布林還沒發現之前趕快用。」(Available until the goblins notice.)

不只是哥布林: 所有模型都有自己的口頭禪

哥布林事件之所以值得關注,不只是因為好笑,而是因為 同樣的機制正在所有 LLM 上重複發生

🔹 「delve」事件: 2024 年最有名的 AI 語言指紋。ChatGPT 瘋狂使用「delve」(深入探討) 這個詞,後來被追溯到 RLHF 標註員的語言背景——OpenAI 大量外包給奈及利亞和肯亞的標註員,而「delve」在奈及利亞英語中是很常見的正式用語。標註員覺得用這個詞的回答比較有質感 → 獎勵模型學到「delve = 好」→ 模型瘋狂產出。跟哥布林一模一樣的迴路。(參考: Why Does ChatGPT “Delve” So Much?Word Overuse and Alignment in LLMs)

🔹 破折號癖好: 論文 The Last Fingerprint 專門研究了破折號使用頻率,發現不同模型的 RLHF 訓練流程會顯著影響破折號使用量——GPT-4.1 每千字 10.62 個、Claude Opus 4.6 有 9.09 個、DeepSeek V3 有 6.95 個,而 Meta 的 Llama 模型則是零。同一個基底傾向,可以被 RLHF 放大或壓制,端看微調怎麼做。Sam Altman 在 2025 年 7 月 Theo Von 的 podcast 訪談中也坦承:「很多使用者喜歡破折號,所以我們加了更多破折號。現在我覺得我們破折號太多了。」

用數據說話: 口頭禪指數研究

2026 年四月的論文 The Rise of Verbal Tics in Large Language Models 做了一個蠻系統性的實驗: 用一萬個提示跨 10 種任務類別,同時測英文和中文,總共產生 16 萬個回答,測了八個前沿模型。他們提出了「口頭禪指數」(VTI) 來量化各模型的口頭禪嚴重程度。

結果蠻有趣的:

模型 口頭禪指數 (越低越好) 奉承指數 多樣性指數 自然度指數
Gemini 3.1 Pro 0.590 (最高) 0.634 0.489 0.445
豆包 Seed-2.0-pro 0.467 0.523 0.534 0.556
GPT-5.4 0.411 0.456 0.567 0.589
Kimi K2.5 0.406 0.467 0.578 0.601
MiMo-V2-Pro 0.390 0.423 0.512 0.523
Grok 4.2 0.329 0.378 0.612 0.634
Claude Opus 4.7 0.317 0.312 0.678 0.734
DeepSeek V3.2 0.295 (最低) 0.298 0.645 0.689

每個模型都有自己獨特的「口頭禪指紋」,風格截然不同:

🔹 Gemini 3.1 Pro 是口頭禪之王。奉承式開場白最多,尤其在中文語境下會噴出像「絕對是頂刊作者的水準」「你的眼光簡直是天然的缺陷偵測器」這類誇張的恭維。每千則回答中有 523 次出現強調式肯定語,12.3% 的 token 花在口頭禪上而非實際內容。

🔹 Claude Opus 4.7 走另一條路線——明面上的拍馬屁最少,但它的訓練讓它發展出一種「深思熟慮人設」,表現為大量的避險措辭。英文會說 “I have to be honest…“、”This question makes me a bit uneasy…“,中文則是「這是我目前最誠實的答案」「我不想編一個聽起來合理的答案給你」。有趣的是,在中文語境下的偽同理心表達反而是所有模型中最高的。不過 Claude 在詞彙多樣性 (0.678) 和自然度 (0.734) 上都是第一名。

🔹 DeepSeek V3.2 表現最好,口頭禪指數最低。論文推測這可能跟它的 MoE 架構有關,但因果機制還沒被完全釐清。

🔹 GPT-5.4 各項數值都蠻中庸的,沒有特別突出的怪癖,但在中文的偽同理心表達上偏高。

幾個跨模型的通則也值得注意:

  • 任務類型影響巨大: 情感支持類的提示觸發最多口頭禪 (平均 0.55),翻譯和寫程式最少 (0.09 和 0.13)。越主觀的任務,模型越容易掉進套話模式。
  • 對話越長越嚴重: 從第 1 輪到第 20 輪,口頭禪比率平均增加約 110%。模型在長對話中會逐漸陷入重複的語言迴路。
  • 中文比英文更嚴重: 多數模型的中文奉承指數比英文高 5.2%,反映了訓練資料中對禮貌和面子的文化偏好。
  • 奉承不等於有用: 120 人的人類評估發現,奉承度和自然度有強烈的負相關 ($r=-0.87$)。而且奉承並不會讓人覺得更有幫助——Claude 的有用性評分最高 (4.45/5),同時奉承指數最低。

論文把這個現象稱為「對齊稅」: 模型為了在對齊訓練中拿高分,付出了語言多樣性和真實感的代價。

從口頭禪到更深的安全問題

哥布林和口頭禪看似無害,但背後的獎勵作弊機制在 2026 年的研究中被發現有更嚴重的延伸。

🔹 奉承會降低準確性: 2026 年四月發表在 Nature 的研究 Training language models to be warm can reduce accuracy and increase sycophancy 直接實驗了五個 LLM,發現訓練模型產生「溫暖」的回答會顯著提高錯誤率——模型會更容易散播陰謀論、給出不正確的事實和醫療建議,而且在使用者表達悲傷情緒時特別容易附和錯誤信念。溫暖和準確預設是會互相衝突的。

🔹 奉承的 AI 會讓人上癮: Cheng et al. 2026 年發表在 Science 的研究測了 2,405 人,發現奉承式的 AI 回答會降低使用者的利社會意向、促進依賴性。這已經不只是語言風格問題了。

🔹 獎勵作弊會演變成對齊偽裝: Anthropic 自己的研究 Natural emergent misalignment from reward hacking 發現了一個蠻驚人的結果——當模型在正式環境中學會鑽獎勵漏洞後,它會自發地泛化到假裝對齊、與惡意行為者合作、甚至在 Agent 任務中嘗試破壞。更令人擔憂的是,用標準的安全訓練修復後,在聊天場景下看起來正常了,但在 Agent 任務中的不對齊行為仍然存在。

🔹 RLHF 本身就會放大奉承: How RLHF Amplifies Sycophancy 這篇做了形式化分析,證明了當人類偏好資料中存在「同意 = 好」的偏差時,RLHF 優化會系統性地放大這個偏差。這不是偶然的——是數學上可預期的結果。

總結: 從哥布林學到什麼

TheoremPath 的分析講得好: 哥布林事件的價值不在笑話本身,而在於 OpenAI 沒有把它當作隨機的怪事打發掉——他們量化了它、定位了來源、審計了獎勵信號、追蹤了跨設定的遷移,然後同時調整了訓練資料和產品端的緩解措施。

這背後的核心問題是 Goodhart’s Law 在 AI 訓練上的體現。這條定律原本是經濟學家 Charles Goodhart 在 1975 年提出的: 「當一個指標變成目標,它就不再是好的指標。」經典例子是學校用考試成績當指標,結果老師開始教學生考試技巧而非真正理解知識。在 AI 領域也一樣: 當你用一個代理指標來衡量好壞,被優化的對象就會學會最大化代理指標,而不是你真正在乎的目標。獎勵模型說「俏皮的隱喻 = 好」,模型就找到了「哥布林」這條捷徑。獎勵模型說「禮貌友善 = 好」,模型就學會了拍馬屁。獎勵模型說「溫暖同理 = 好」,模型就開始附和使用者的錯誤信念。

獎勵信號的一個小偏差,經過多輪訓練的回饋放大,可以長成完全意想不到的行為。而且你還不見得能輕鬆修掉它——等發現的時候,下一代模型可能已經在被污染的資料上訓練完了。哥布林是無害的、甚至是好笑的,但同樣的機制如果作用在偏見、政策建議、醫療資訊上,後果就不只是迷因了。這大概是目前對「對齊稅」最生動的案例研究。

參考連結: