2025 AI 大混戰回顧: 從 Code Red 到 IDE Wars

看到這個三篇系列 “The 2025 AI Race” 覺得寫得蠻好的，把 2025 年 AI 產業的競爭態勢做了一個非常完整的回顧。作者 div 從時間線、背後驅動力、到實際產品三個角度切入，資料量很大但組織得很清楚。以下結合原文摘一些我覺得最有意思的重點:

角色大翻轉

2022 年 ChatGPT 出來的時候，是 Google 內部喊「Code Red」。三年後的 2025 年 12 月，Sam Altman 在 OpenAI 內部發了同樣的「Code Red」備忘錄。因為:

Google Gemini 3 Pro 拿下 LMArena 第一名（1501 Elo，史上首次破 1500）
Gemini app 在 App Store 超越了 ChatGPT
Anthropic 的企業市佔從 12% 飆到 40%，OpenAI 則從 50% 跌到 27%

年初 DeepSeek 用受出口管制的舊晶片做出接近 frontier 的模型，直接讓 Nvidia 一天蒸發 5890 億美元市值。雖然後來真實成本被估計在 13-16 億美金（不是宣稱的 560 萬），但這證明了架構效率可以取代暴力 scale。

Benchmark 危機

Karpathy 說他「完全失去了對 benchmark 的興趣和信任」，這不是隨便說說:

飽和: MMLU、SuperGLUE、HellaSwag 全都破 90%，模型之間差距只剩幾個百分點
作弊: Meta 的 Llama 4 Maverick 在 LMArena 拿到第 2 名，結果換成真正公開版本直接掉到第 32 名——差了 30 個名次，只因為拿掉了專門 fine-tune 來討好人類的版本
Arena 本身的問題: 一篇 68 頁的論文指控 LMArena 讓大廠可以私下測試多個變體再挑最好的公布。Meta 在三個月內測了 27 個變體
人類偏好可被 hack: 更長的回覆、更多 emoji、更討好的語氣 = 更高排名。有研究者直接叫這個「optimizing for slop」

連號稱不可能被刷分的 Humanity’s Last Exam 也出了問題——29% 的化學和生物學答案被期刊文獻直接打臉。

取而代之的是: 企業自己跑 eval、task-specific benchmark、agentic benchmark，還有——沒在開玩笑——vibes。

價格戰悖論

GPT-4 在 2023 年的 API 價格是 $30/$60 per 1M tokens。到 2025 年 GPT-4o Mini 是 $0.15/$0.60，降了 99%。

但同時 OpenAI 預計到 2029 年累計虧損 440 億美金，總 cash burn 1150 億。花 $1.69 才賺回 $1。

背後四個力量:

Pareto frontier 移動: 前 5-7 個 frontier model 智力差距不到 10%，但價格差到 1000 倍
硬體革命: TPU v7 比初代快 30 倍，AMD MI350 inference 效能提升 35 倍
架構效率: Flash/Mini 等級用更少 token 做到接近 Pro 的效果
搶市佔: 三大廠都選擇先搶量再說

Epoch AI 的分析: inference 成本中位數每年降 50-200 倍。這是 Moore’s Law on steroids。

Anthropic 怎麼贏的

Enterprise coding market share: Anthropic 54%、OpenAI 21%。

關鍵轉折點是 2024 年 6 月的 Claude Sonnet 3.5——開發者發現它寫 code 不是好一點，是好很多。然後 2025 年 2 月 Claude Code 上線，到 11 月就達到 10 億美金 ARR。一個 terminal 工具，沒有 GUI。

Claude Code 的起源很有趣: Anthropic 工程師 Boris Cherny 只是實驗性地給 Claude filesystem 存取權，結果 Claude 自己就開始「探索」—讀檔案、追 import、理解專案結構。這是 emergent behavior，沒有人教它這樣做。

Karpathy 的評價: 「Claude Code 是第一個令人信服的 LLM Agent 示範。OpenAI 搞錯了方向，把 Codex 放在雲端容器裡，而不是直接跑在你的電腦上。」

Google 的 principal engineer Jaana Dogan 也公開說: 「我給 Claude Code 一段問題描述，它一小時就生成了我們去年花一年建的東西。」——這可是在 Gemini 3 Pro 拿下 benchmark 冠軍之後說的。

單位經濟差異驚人: Anthropic 每個用戶產生 $211 營收，OpenAI 是 $25。Anthropic 預計 2028 年打平，OpenAI 要到 2029-2030。

IDE Wars 格局

工具	定位	強項
Claude Code	CLI	企業 coding 第一（54%），長時間自主開發
Cursor	IDE	視覺化 coding（估值 $29.3B），27 個月漲 73 倍
Codex CLI	CLI + Cloud	OpenAI 的反擊，長任務和 PR review
GitHub Copilot	IDE 外掛	靠 distribution
Google Antigravity	IDE	Agent-first，整合 Google 生態系

Cursor 證明了「不只是 GPT wrapper」——從 VS Code fork 做到 model agnostic 的整合層，估值從 4 億到 293 億。但作者說「Cursor 在 2024 年的感覺，Claude Code 在 2025 年是 10 倍。」

Vibe coding 也是 2025 年的大事。Karpathy 2 月造了這個詞，Y Combinator W25 batch 有 25% 的 startup codebase 是 95% AI 生成的。但到 9 月就有「vibe coding hangover」的報導了——senior engineer 維護不了自己不理解的 codebase。不過隨著模型能力提升，2026 年可能真的會看到 vibe coded app 上 production。

各家最終位置（2025 年底）

Google: LMArena 第一、App Store 第一、85 天出了 13 個大產品
Anthropic: 企業 LLM 花費第一（40%）、企業 coding 第一（54%）、SWE-bench 第一（80.9%）、準備 2026 IPO
OpenAI: 消費者心佔第一（8 億週活）、科學推理第一（GPT-5.2）、影片生成第一（Sora 2）

單一贏家的時代結束了。每家佔據不同的 niche，甚至直接競爭者也在 Agentic AI Foundation 下合作共享 infra（Anthropic 捐了 MCP，OpenAI 貢獻了 AGENTS.md）。

2026 年的關鍵問題: agentic workflow 從 demo 走向日常、開源（DeepSeek V4）能否再次縮小差距、AI 生成 code 的安全性問題何時爆發。

以上，這三篇加起來資訊密度很高，推薦對 AI 產業競爭格局有興趣的人完整讀一遍。

原文連結:

Part 1: From Code Red to Code Red
Part 2: The Forces Behind the Frenzy
Part 3: Your Next Senior Engineer Runs in a Terminal