2025 AI 大混戰回顧: 從 Code Red 到 IDE Wars
看到這個三篇系列 “The 2025 AI Race” 覺得寫得蠻好的,把 2025 年 AI 產業的競爭態勢做了一個非常完整的回顧。作者 div 從時間線、背後驅動力、到實際產品三個角度切入,資料量很大但組織得很清楚。以下結合原文摘一些我覺得最有意思的重點:
角色大翻轉
2022 年 ChatGPT 出來的時候,是 Google 內部喊「Code Red」。三年後的 2025 年 12 月,Sam Altman 在 OpenAI 內部發了同樣的「Code Red」備忘錄。因為:
- Google Gemini 3 Pro 拿下 LMArena 第一名(1501 Elo,史上首次破 1500)
- Gemini app 在 App Store 超越了 ChatGPT
- Anthropic 的企業市佔從 12% 飆到 40%,OpenAI 則從 50% 跌到 27%
年初 DeepSeek 用受出口管制的舊晶片做出接近 frontier 的模型,直接讓 Nvidia 一天蒸發 5890 億美元市值。雖然後來真實成本被估計在 13-16 億美金(不是宣稱的 560 萬),但這證明了架構效率可以取代暴力 scale。
Benchmark 危機
Karpathy 說他「完全失去了對 benchmark 的興趣和信任」,這不是隨便說說:
- 飽和: MMLU、SuperGLUE、HellaSwag 全都破 90%,模型之間差距只剩幾個百分點
- 作弊: Meta 的 Llama 4 Maverick 在 LMArena 拿到第 2 名,結果換成真正公開版本直接掉到第 32 名——差了 30 個名次,只因為拿掉了專門 fine-tune 來討好人類的版本
- Arena 本身的問題: 一篇 68 頁的論文指控 LMArena 讓大廠可以私下測試多個變體再挑最好的公布。Meta 在三個月內測了 27 個變體
- 人類偏好可被 hack: 更長的回覆、更多 emoji、更討好的語氣 = 更高排名。有研究者直接叫這個「optimizing for slop」
連號稱不可能被刷分的 Humanity’s Last Exam 也出了問題——29% 的化學和生物學答案被期刊文獻直接打臉。
取而代之的是: 企業自己跑 eval、task-specific benchmark、agentic benchmark,還有——沒在開玩笑——vibes。
價格戰悖論
GPT-4 在 2023 年的 API 價格是 $30/$60 per 1M tokens。到 2025 年 GPT-4o Mini 是 $0.15/$0.60,降了 99%。
但同時 OpenAI 預計到 2029 年累計虧損 440 億美金,總 cash burn 1150 億。花 $1.69 才賺回 $1。
背後四個力量:
- Pareto frontier 移動: 前 5-7 個 frontier model 智力差距不到 10%,但價格差到 1000 倍
- 硬體革命: TPU v7 比初代快 30 倍,AMD MI350 inference 效能提升 35 倍
- 架構效率: Flash/Mini 等級用更少 token 做到接近 Pro 的效果
- 搶市佔: 三大廠都選擇先搶量再說
Epoch AI 的分析: inference 成本中位數每年降 50-200 倍。這是 Moore’s Law on steroids。
Anthropic 怎麼贏的
Enterprise coding market share: Anthropic 54%、OpenAI 21%。
關鍵轉折點是 2024 年 6 月的 Claude Sonnet 3.5——開發者發現它寫 code 不是好一點,是好很多。然後 2025 年 2 月 Claude Code 上線,到 11 月就達到 10 億美金 ARR。一個 terminal 工具,沒有 GUI。
Claude Code 的起源很有趣: Anthropic 工程師 Boris Cherny 只是實驗性地給 Claude filesystem 存取權,結果 Claude 自己就開始「探索」—讀檔案、追 import、理解專案結構。這是 emergent behavior,沒有人教它這樣做。
Karpathy 的評價: 「Claude Code 是第一個令人信服的 LLM Agent 示範。OpenAI 搞錯了方向,把 Codex 放在雲端容器裡,而不是直接跑在你的電腦上。」
Google 的 principal engineer Jaana Dogan 也公開說: 「我給 Claude Code 一段問題描述,它一小時就生成了我們去年花一年建的東西。」——這可是在 Gemini 3 Pro 拿下 benchmark 冠軍之後說的。
單位經濟差異驚人: Anthropic 每個用戶產生 $211 營收,OpenAI 是 $25。Anthropic 預計 2028 年打平,OpenAI 要到 2029-2030。
IDE Wars 格局
| 工具 | 定位 | 強項 |
|---|---|---|
| Claude Code | CLI | 企業 coding 第一(54%),長時間自主開發 |
| Cursor | IDE | 視覺化 coding(估值 $29.3B),27 個月漲 73 倍 |
| Codex CLI | CLI + Cloud | OpenAI 的反擊,長任務和 PR review |
| GitHub Copilot | IDE 外掛 | 靠 distribution |
| Google Antigravity | IDE | Agent-first,整合 Google 生態系 |
Cursor 證明了「不只是 GPT wrapper」——從 VS Code fork 做到 model agnostic 的整合層,估值從 4 億到 293 億。但作者說「Cursor 在 2024 年的感覺,Claude Code 在 2025 年是 10 倍。」
Vibe coding 也是 2025 年的大事。Karpathy 2 月造了這個詞,Y Combinator W25 batch 有 25% 的 startup codebase 是 95% AI 生成的。但到 9 月就有「vibe coding hangover」的報導了——senior engineer 維護不了自己不理解的 codebase。不過隨著模型能力提升,2026 年可能真的會看到 vibe coded app 上 production。
各家最終位置(2025 年底)
- Google: LMArena 第一、App Store 第一、85 天出了 13 個大產品
- Anthropic: 企業 LLM 花費第一(40%)、企業 coding 第一(54%)、SWE-bench 第一(80.9%)、準備 2026 IPO
- OpenAI: 消費者心佔第一(8 億週活)、科學推理第一(GPT-5.2)、影片生成第一(Sora 2)
單一贏家的時代結束了。每家佔據不同的 niche,甚至直接競爭者也在 Agentic AI Foundation 下合作共享 infra(Anthropic 捐了 MCP,OpenAI 貢獻了 AGENTS.md)。
2026 年的關鍵問題: agentic workflow 從 demo 走向日常、開源(DeepSeek V4)能否再次縮小差距、AI 生成 code 的安全性問題何時爆發。
以上,這三篇加起來資訊密度很高,推薦對 AI 產業競爭格局有興趣的人完整讀一遍。
原文連結:
- Part 1: From Code Red to Code Red
- Part 2: The Forces Behind the Frenzy
- Part 3: Your Next Senior Engineer Runs in a Terminal