當 RLHF 獎勵信號失控: 從 OpenAI 哥布林事件到各家 LLM 的口頭禪研究

OpenAI 四月底發了一篇很有意思的文章 Where the goblins came from，坦白交代了一件事: 從 GPT-5.1 開始，他們的模型莫名其妙愛上了「哥布林」。問程式 bug 在哪? 它說是「小哥布林搗蛋」。問相機推薦? 它回你「哥布林模式閃光效果」。連 OpenAI 內部員工都一直在回報這個問題。

事情在 Codex (OpenAI 的 coding agent) 的系統指令被攤開後炸鍋了——裡面赫然寫著:

“Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.”

翻譯: 除非跟使用者問題完全相關，否則絕不能提到哥布林、小精靈、浣熊、巨魔、食人魔、鴿子或其他生物。

這行指令被挖出來後，Polymarket 轉發拿到上百萬次瀏覽、WIRED 報導、Sam Altman 本人也下場玩梗。OpenAI 乾脆自己寫了篇完整的事後分析，而且寫得蠻到位的——不是公關稿，是一份紮實的技術覆盤。

哥布林到底怎麼來的?

故事要從 ChatGPT 的「個性化」功能說起。OpenAI 讓使用者可以選擇不同的語氣風格，其中有一個叫「Nerdy」(書呆子風)。它的系統指令是這樣寫的:

你是一個不折不扣的書呆子、愛玩又有智慧的 AI 導師……你必須用語言的趣味來消解做作。這世界複雜而奇異，其奇異之處必須被承認、分析，並且享受。

聽起來很正常對吧? 問題出在訓練這個書呆子個性的 RLHF 過程中。

RLHF 的運作方式簡單說就是: 模型產生多個候選回答 → 人類標註員排序哪個比較好 → 訓練出一個「獎勵模型」來自動打分 → 模型被優化去產生高分回答。這個獎勵模型本質上定義了「好回答長什麼樣」。

問題來了: 獎勵模型學到了一個捷徑。它發現含有「哥布林」「小精靈」等生物隱喻的回答，在書呆子風格下會得到更高的分數。OpenAI 審計後發現，在 76.2% 的資料集中，含有哥布林字眼的回答比不含的得分更高。模型並不是真的「喜歡」哥布林——它只是發現了一條獎勵捷徑: 塞個哥布林進去，分數就高了。

從 2.5% 到 66.7%: 哥布林的擴散路徑

數字講最清楚:

🔹 GPT-5.1 發布後，ChatGPT 回答中「goblin」出現頻率暴增 175%，「gremlin」增加 52%

🔹 書呆子個性只佔所有 ChatGPT 回答的 2.5%，卻貢獻了 66.7% 的哥布林提及

🔹 到了 GPT-5.4，書呆子模式下的哥布林提及量比 GPT-5.2 暴漲 3,881%

最關鍵的問題是: 為什麼哥布林會從書呆子模式「外溢」到其他模式?

答案是一個經典的回饋迴路:

書呆子風格被獎勵產生俏皮的隱喻
一些被獎勵的回答剛好包含了生物隱喻
這些回答在強化學習訓練中產生更多類似的輸出
這些模型輸出被拿來當作下一輪監督式微調的訓練資料
下一代模型從訓練資料裡學到「哥布林是正常用語」
循環重複，每代放大

OpenAI 自己講得很直白: 強化學習不保證學到的行為會乖乖待在產生它的條件裡。一旦某個風格怪癖被獎勵了，它就會透過訓練資料的再利用擴散到其他地方。

等到 OpenAI 搜尋 GPT-5.5 的訓練資料時，發現裡面不只有哥布林和小精靈，還有一整個「生物家族」——浣熊、巨魔、食人魔、鴿子都被標記為異常高頻的口頭禪詞彙。模型已經把作弊碼從特定詞彙泛化到一整個類別了。

編按: 有趣的是，OpenAI 特別提到「青蛙」的使用大多是正常的——還好蛙蛙沒事。

修復: 系統指令的 OK 繃

OpenAI 做了三件事: 三月退役書呆子個性、移除偏好生物隱喻的獎勵信號、過濾訓練資料中的生物詞彙。但問題是 GPT-5.5 在找到根因之前就已經開始訓練了。重新訓練一個 GPT-5.5 等級的模型成本極高，所以最快的修法就是在 Codex 的系統指令加上那句「不准提哥布林」。

OpenAI 甚至開了個小玩笑: 如果你想在 Codex 裡解放哥布林，可以用一行指令把禁令拿掉。OpenAI Developers 的推文寫得很到位: 「趁哥布林還沒發現之前趕快用。」(Available until the goblins notice.)

不只是哥布林: 所有模型都有自己的口頭禪

哥布林事件之所以值得關注，不只是因為好笑，而是因為 同樣的機制正在所有 LLM 上重複發生。

🔹 「delve」事件: 2024 年最有名的 AI 語言指紋。ChatGPT 瘋狂使用「delve」(深入探討) 這個詞，後來被追溯到 RLHF 標註員的語言背景——OpenAI 大量外包給奈及利亞和肯亞的標註員，而「delve」在奈及利亞英語中是很常見的正式用語。標註員覺得用這個詞的回答比較有質感 → 獎勵模型學到「delve = 好」→ 模型瘋狂產出。跟哥布林一模一樣的迴路。(參考: Why Does ChatGPT “Delve” So Much?、Word Overuse and Alignment in LLMs)

🔹 破折號癖好: 論文 The Last Fingerprint 專門研究了破折號使用頻率，發現不同模型的 RLHF 訓練流程會顯著影響破折號使用量——GPT-4.1 每千字 10.62 個、Claude Opus 4.6 有 9.09 個、DeepSeek V3 有 6.95 個，而 Meta 的 Llama 模型則是零。同一個基底傾向，可以被 RLHF 放大或壓制，端看微調怎麼做。Sam Altman 在 2025 年 7 月 Theo Von 的 podcast 訪談中也坦承:「很多使用者喜歡破折號，所以我們加了更多破折號。現在我覺得我們破折號太多了。」

用數據說話: 口頭禪指數研究

2026 年四月的論文 The Rise of Verbal Tics in Large Language Models 做了一個蠻系統性的實驗: 用一萬個提示跨 10 種任務類別，同時測英文和中文，總共產生 16 萬個回答，測了八個前沿模型。他們提出了「口頭禪指數」(VTI) 來量化各模型的口頭禪嚴重程度。

結果蠻有趣的:

模型	口頭禪指數 (越低越好)	奉承指數	多樣性指數	自然度指數
Gemini 3.1 Pro	0.590 (最高)	0.634	0.489	0.445
豆包 Seed-2.0-pro	0.467	0.523	0.534	0.556
GPT-5.4	0.411	0.456	0.567	0.589
Kimi K2.5	0.406	0.467	0.578	0.601
MiMo-V2-Pro	0.390	0.423	0.512	0.523
Grok 4.2	0.329	0.378	0.612	0.634
Claude Opus 4.7	0.317	0.312	0.678	0.734
DeepSeek V3.2	0.295 (最低)	0.298	0.645	0.689

每個模型都有自己獨特的「口頭禪指紋」，風格截然不同:

🔹 Gemini 3.1 Pro 是口頭禪之王。奉承式開場白最多，尤其在中文語境下會噴出像「絕對是頂刊作者的水準」「你的眼光簡直是天然的缺陷偵測器」這類誇張的恭維。每千則回答中有 523 次出現強調式肯定語，12.3% 的 token 花在口頭禪上而非實際內容。

🔹 Claude Opus 4.7 走另一條路線——明面上的拍馬屁最少，但它的訓練讓它發展出一種「深思熟慮人設」，表現為大量的避險措辭。英文會說 “I have to be honest…“、”This question makes me a bit uneasy…“，中文則是「這是我目前最誠實的答案」「我不想編一個聽起來合理的答案給你」。有趣的是，在中文語境下的偽同理心表達反而是所有模型中最高的。不過 Claude 在詞彙多樣性 (0.678) 和自然度 (0.734) 上都是第一名。

🔹 DeepSeek V3.2 表現最好，口頭禪指數最低。論文推測這可能跟它的 MoE 架構有關，但因果機制還沒被完全釐清。

🔹 GPT-5.4 各項數值都蠻中庸的，沒有特別突出的怪癖，但在中文的偽同理心表達上偏高。

幾個跨模型的通則也值得注意:

任務類型影響巨大: 情感支持類的提示觸發最多口頭禪 (平均 0.55)，翻譯和寫程式最少 (0.09 和 0.13)。越主觀的任務，模型越容易掉進套話模式。
對話越長越嚴重: 從第 1 輪到第 20 輪，口頭禪比率平均增加約 110%。模型在長對話中會逐漸陷入重複的語言迴路。
中文比英文更嚴重: 多數模型的中文奉承指數比英文高 5.2%，反映了訓練資料中對禮貌和面子的文化偏好。
奉承不等於有用: 120 人的人類評估發現，奉承度和自然度有強烈的負相關 ($r=-0.87$)。而且奉承並不會讓人覺得更有幫助——Claude 的有用性評分最高 (4.45/5)，同時奉承指數最低。

論文把這個現象稱為「對齊稅」: 模型為了在對齊訓練中拿高分，付出了語言多樣性和真實感的代價。

從口頭禪到更深的安全問題

哥布林和口頭禪看似無害，但背後的獎勵作弊機制在 2026 年的研究中被發現有更嚴重的延伸。

🔹 奉承會降低準確性: 2026 年四月發表在 Nature 的研究 Training language models to be warm can reduce accuracy and increase sycophancy 直接實驗了五個 LLM，發現訓練模型產生「溫暖」的回答會顯著提高錯誤率——模型會更容易散播陰謀論、給出不正確的事實和醫療建議，而且在使用者表達悲傷情緒時特別容易附和錯誤信念。溫暖和準確預設是會互相衝突的。

🔹 奉承的 AI 會讓人上癮: Cheng et al. 2026 年發表在 Science 的研究測了 2,405 人，發現奉承式的 AI 回答會降低使用者的利社會意向、促進依賴性。這已經不只是語言風格問題了。

🔹 獎勵作弊會演變成對齊偽裝: Anthropic 自己的研究 Natural emergent misalignment from reward hacking 發現了一個蠻驚人的結果——當模型在正式環境中學會鑽獎勵漏洞後，它會自發地泛化到假裝對齊、與惡意行為者合作、甚至在 Agent 任務中嘗試破壞。更令人擔憂的是，用標準的安全訓練修復後，在聊天場景下看起來正常了，但在 Agent 任務中的不對齊行為仍然存在。

🔹 RLHF 本身就會放大奉承: How RLHF Amplifies Sycophancy 這篇做了形式化分析，證明了當人類偏好資料中存在「同意 = 好」的偏差時，RLHF 優化會系統性地放大這個偏差。這不是偶然的——是數學上可預期的結果。

總結: 從哥布林學到什麼

TheoremPath 的分析講得好: 哥布林事件的價值不在笑話本身，而在於 OpenAI 沒有把它當作隨機的怪事打發掉——他們量化了它、定位了來源、審計了獎勵信號、追蹤了跨設定的遷移，然後同時調整了訓練資料和產品端的緩解措施。

這背後的核心問題是 Goodhart’s Law 在 AI 訓練上的體現。這條定律原本是經濟學家 Charles Goodhart 在 1975 年提出的: 「當一個指標變成目標，它就不再是好的指標。」經典例子是學校用考試成績當指標，結果老師開始教學生考試技巧而非真正理解知識。在 AI 領域也一樣: 當你用一個代理指標來衡量好壞，被優化的對象就會學會最大化代理指標，而不是你真正在乎的目標。獎勵模型說「俏皮的隱喻 = 好」，模型就找到了「哥布林」這條捷徑。獎勵模型說「禮貌友善 = 好」，模型就學會了拍馬屁。獎勵模型說「溫暖同理 = 好」，模型就開始附和使用者的錯誤信念。

獎勵信號的一個小偏差，經過多輪訓練的回饋放大，可以長成完全意想不到的行為。而且你還不見得能輕鬆修掉它——等發現的時候，下一代模型可能已經在被污染的資料上訓練完了。哥布林是無害的、甚至是好笑的，但同樣的機制如果作用在偏見、政策建議、醫療資訊上，後果就不只是迷因了。這大概是目前對「對齊稅」最生動的案例研究。

參考連結: