從 Interconnects AI 看 2026 開源模型全景: 差距、蒸餾、中國與下一步

如果你關心開源模型的發展，有一個電子報是必讀的: Interconnects AI。

作者 Nathan Lambert 是 AI2（Allen Institute for AI）的研究員，也是 The ATOM Project 的主持人，同時是即將出版的 RLHF Book 的作者，對後訓練技術有很深的第一手理解。

ATOM 值得特別介紹一下。這個計畫 2025 年八月啟動時發了一份被 Lambert 自己稱為「宣言」的備忘錄，核心主張是美國需要認真投資開源模型。到了 2026 年四月，他們發表了配套的技術報告，追蹤了大約 1,500 個主要開源語言模型，累計超過 30 億次下載（2023 年 11 月至 2026 年 3 月）。報告用四個維度衡量生態: HuggingFace 下載量、衍生模型數量、推論市場份額（OpenRouter）、以及效能指標。結論很明確: 中國模型在 2025 年夏天超越美國成為下載量最大的來源國，年增率 11.9 倍; 到 2026 年 3 月，Qwen 累計下載 9.42 億次，是 Llama 的將近兩倍; 中國模型在 OpenRouter 上佔了 72.7% 的 token 份額。開源模型的歷史被劃分為三個階段: 歐洲主導（Mistral 時代）→ 美國主導（Llama 3 時代）→ 中國主導（DeepSeek V3/R1 + Qwen3 時代）。

ATOM 最有意思的工具是 RAM（相對採用率指標）: 它把模型的下載量按照發布時間和模型大小做標準化，讓不同時期、不同大小的模型可以放在一起比。RAM > 1 表示這個模型有望進入該大小類別的歷史前十名下載量。Lambert 說這個指標「把一團混亂的生態濃縮成一個容易解讀的數字」。在大家都在吵評測分數的時候，ATOM 提供了一個從實際採用率角度看開源模型的窗口——這個視角目前幾乎沒有其他人在做。

Interconnects 的獨特之處在於: Lambert 不只是在做技術評論，他同時橫跨了技術、地緣政治、商業模式三個維度來觀察開源模型。2026 上半年他寫了一系列非常密集的文章，從二月到五月幾乎每週都有重量級分析——包括開源閉源的效能差距、蒸餾爭議、中國實驗室訪談、開源生態的複利效應、Gemma 4 評估等等。

以下整理出幾個最重要的主題和洞見。

一、開源 vs 閉源的差距到底多大? 答案比你想的複雜

這可能是 2026 年 AI 圈討論度最高的話題之一。很多人喜歡用 Artificial Analysis Intelligence Index 這種綜合評測的單一分數來量化差距，但 Lambert 在 Reading today’s open-closed performance gap 中指出，這種做法遮蓋了太多重要的細節。

🔹 差距大約是 6-18 個月，穩定但更可能拉大。 Lambert 在多篇文章中反覆論證: 開源模型一直落後閉源最前沿大約 6-18 個月，而且考慮到 Anthropic、OpenAI、Google 手上的資源（算力、資料、人才）是開源陣營的 10 倍以上，這個差距能維持這麼小本身就很驚人。但他判斷差距更可能擴大而非縮小。

為什麼? 理由有好幾層:

前沿任務正在往更專業的領域發展。 法律、醫療、會計這些高門檻領域的訓練資料不在公開網路上，而且需要昂貴的強化學習環境來訓練。閉源實驗室花「天文數字」買這些資料和環境，開源模型很難複製。
Agent 時代讓蒸餾變更難。 以前你可以直接拿閉源模型的輸出來訓練，但現在最關鍵的是複雜的強化學習環境和提示詞設計，這些比模型輸出更容易藏起來。
閉源模型在「難以衡量的品質」上仍然領先。 特別是穩健性和一般性的好用程度，這些不容易被評測捕捉到。實務上常見的狀況是: 用開源模型跑 agent 得比用 Claude 或 Codex 更頻繁地重置上下文。

🔹 評測的可信度正在下降。 Lambert 觀察到一個弔詭的現象: Gemini 3 拿到「不可思議的評測分數」，但在 agent 實際部署場景裡卻「顯得格外無關」。他直言，在後訓練技術快速演進的時代，他對評測的信心處於「相對低點」。

2026 五月的 Open Artifacts #21 更進一步呈現了這個爭議: 美國 NIST 下的 CAISI 用 IRT 方法分析 DeepSeek V4，結論是差距正在擴大; 但 Epoch AI 的 ECI 指標卻顯示差距自 R1 以來一直穩定在 3-7 個月。兩個結論完全相反。

Interconnects 團隊的 Florian Brand 和 Lambert 本人也有分歧: Florian 認為開源模型在真實效能上比評測顯示的更接近閉源模型; Lambert 則認為閉源模型領先的幅度比 Florian 想的更大。

小編覺得這個「團隊內部公開唱反調」蠻健康的——至少讓讀者知道，即使是最接近資料的人，判斷也沒有共識。

二、蒸餾: 沒你想的那麼重要，但恐慌很危險

2026 年二月，Anthropic 點名指控 DeepSeek、Moonshot AI、MiniMax 三家中國實驗室透過約 24,000 個假帳號、超過 1,600 萬次對話來「蒸餾」Claude。這件事在業界炸開了鍋。

Lambert 在 How much does distillation really matter 做了非常細緻的分析:

🔹 DeepSeek 的 15 萬次對話影響可忽略不計。 在訓練語言模型的量級裡，15 萬筆資料「只是抓個表面」。但 Moonshot 和 MiniMax 合計的對話量換算成 token 大約是 1,500-4,000 億，這個量級「確實可能有意義地改善後訓練」。

🔹 蒸餾的效果其實很「鋸齒狀」。 直接拿老師模型的輸出來訓練學生模型並不簡單——研究社群已經看到很多案例，某些老師的輸出反而會讓學生模型變差。這本質上是一個研究問題，不是複製貼上就能搞定的。

🔹 強化學習時代限制了蒸餾的價值。 這是 Lambert 認為最被低估的因素: 在大規模強化學習訓練的時代，你需要模型自己產生策略內的生成——這些生成佔了訓練中的大部分算力成本，而且不能用別的模型的生成來替代。換句話說，即使你拿到了 Claude 的輸出，你還是得靠自己的算力讓模型從自身的生成中學習。

到了五月，Lambert 在 The Distillation Panic 更直接地警告: 把這些行為叫做「蒸餾攻擊」是個危險的用詞。他的論點是，這些中國實驗室真正在做的是越獄和濫用 API，不是蒸餾本身有問題。蒸餾是整個 AI 產業的標準作法——Nvidia 的 Nemotron 蒸餾了中國開源模型，AI2 的 OLMo 蒸餾了多個閉源和開源模型，xAI 在法庭上也承認蒸餾了 OpenAI。

編按: Elon Musk 在 OpenAI 訴訟案中被問到 xAI 是否有蒸餾 OpenAI 的技術，他的回答是:「一般來說 AI 公司都會蒸餾其他 AI 公司。」被追問「這算是承認嗎?」他說:「某種程度上。」

Lambert 最擔心的不是蒸餾本身，而是這個恐慌可能引發的監管連鎖反應: 美國國會正在推動 H.R. 8283 法案、行政命令也在施壓——如果最終結果是有效禁止所有由「曾經蒸餾過閉源 API」的組織開發的開源模型，受傷最深的會是西方的學術界和小型開源貢獻者，而不是中國實驗室。因為中國實驗室「很可能還是會繼續做」。

他引用了 Kevin Xu 的一個很有意思的戰略論點: 如果中國公司一直依賴蒸餾當捷徑來接近前沿，他們永遠不會真正學到獨立領先的技術。美國切斷這個「拐杖」，短期會拉開差距，但長期反而可能逼中國發展出更獨立的能力——這跟半導體出口管制的辯論邏輯一模一樣。

三、中國實驗室: 從內部看到了什麼

Lambert 在 2026 年四月親自去了一趟中國，36 小時內拜訪了 Z.ai、Moonshot AI、清華、美團、小米、01.ai。他在 Notes from inside China’s AI labs 寫下了一些非常第一手的觀察:

🔹 文化優勢在於「執行力」而非「創新力」。 中國實驗室的核心貢獻者有很大比例是在讀的研究生，跟美國頂尖實驗室（OpenAI、Anthropic、Cursor 等根本不提供實習）完全不同。學生文化帶來四個優勢: 更願意做不起眼但必要的工作、個人英雄主義少讓組織更好擴展、新鮮視角能更快適應新技術、充沛人才適合解決已有概念驗證的問題。

🔹 中國研究員對 AI 的「哲學問題」幾乎沒有興趣。 當被問到經濟或長期社會風險時，他們的態度很直接: 這些問題跟我無關，我的工作就是把模型做好。Lambert 形容一位他遇到的研究員把這類問題當成「範疇錯誤」。一位研究員引用了 Dan Wang 的觀點: 中國是工程師在管理國家，美國是律師在管理國家。Lambert 後來也補充修正了自己的觀察: 這種務實態度不只是個人選擇，也跟他們成長的體制有關——在一個不鼓勵對社會結構發表意見的環境裡，專注技術本身是更自然的選擇。另外，中國也沒有像 Dwarkesh 或 Lex 這類讓科學家變成「明星」的媒體管道，科研人員沒有系統性地建立個人影響力的路徑。

🔹 幾乎所有中國 AI 開發者都用 Claude 來寫程式。 這可能是整篇文章最讓人意外的發現——儘管 Claude 在中國名義上是被封鎖的。Lambert 說他訪問的每個人都提到在用 Claude。這也側面說明了中國的 AI 推論需求可能比按 SaaS 市場規模去推算的要大得多——中國的 SaaS 支出歷來很低，但雲端市場本身是龐大的。Lambert 認為 AI 的企業支出更接近雲端市場的邏輯，而非 SaaS 市場。

🔹 Nvidia 晶片依然是黃金標準。 訓練端大家都缺 Nvidia 的卡，有供應一定買。華為等替代方案目前只在推論端被正面提及。

🔹 中國的資料產業品質落後，但「自己造」的文化很強。 美國實驗室花千萬美元買單一強化學習環境，中國實驗室覺得國內資料產業品質不夠好，很多東西得自己造。研究員本人會花大量時間打造訓練環境。更大的公司如字節跳動和阿里巴巴則有內部的資料標註團隊。

🔹 每家中國科技公司都在自建 LLM——這在美國幾乎不可思議。 美團做外賣的、小米做手機的，都在訓練自己的通用語言模型。在美國，同等規模的公司只會去買 API 服務。驅動力是一種「深層的渴望去控制自己的技術堆疊」: 微調能強化自家的技術底盤、內部版本服務自家產品、開源版本則從社群拿回饋。這種「開源優先」的心態主要是出於實用主義，不是什麼開源理想。

🔹 中國 AI 產業更像是「生態系」而非「部落戰爭」。 Lambert 觀察到中國實驗室之間的氛圍是「充滿對同行的尊重」，跟美國實驗室私下見面時「火花四濺」的風格截然不同。所有人都敬畏字節跳動/豆包的實力（中國唯一的前沿閉源實驗室）、尊重 DeepSeek 的研究品味（但認為它的組織不適合在經濟上贏）、認為阿里巴巴憑資源最終會贏得大部分市場。

四、開源生態的複利效應

Lambert 在五月的 How open model ecosystems compound 提出了一個精妙的分析框架:

🔹 訓練前沿模型的算力，80% 花在研發而非最終訓練。 這個數字來自 AI2 的 OLMo 3 開發紀錄和 Epoch AI 對各大實驗室的成本研究。大眾對 AI 模型成本的印象一直被誤導——以為錢主要花在最終那一次大規模訓練上，但實際上絕大部分算力花在實驗、測試、調參這些研發過程。

這個發現的意義在於: 在中國這種所有領先玩家都開源的生態裡，大家可以迅速從同行的研究中學習，避免重複浪費研發算力。這就是為什麼中國的開源模型生態有「複利效應」——每一家實驗室發表詳盡的技術報告，等於在幫其他實驗室降低風險，讓他們不用獨立投入同樣的資源。

🔹 但開源 AI ≠ 傳統開源軟體。 Lambert 很小心地做了區分: 傳統開源軟體有一個從使用者到開發者的回饋循環（Linus’s Law:「只要有夠多雙眼睛，所有 bug 都很淺顯」）。但開源 AI 幾乎不存在這個回饋循環——幾乎所有成本都落在模型開發者身上。開源 AI 模型是「降低未來開發成本的工具」，不是即插即用的解決方案。如果你只是拿來用、不做任何迭代，用開源模型幾乎一定比用閉源 API 更貴。

五、誰還在做開源? 商業模式的困局

Lambert 在多篇文章中反覆提到一個越來越緊迫的問題: 願意釋出前沿開源模型的玩家正在減少。

🔹 Meta 已經在轉向。 Meta 的 Llama 曾經是開源模型的代名詞，但 Lambert 在 The inevitable need for an open model consortium 中指出，Meta 正在把重心從 Llama 移開。ATOM 報告的數據讓這個趨勢更加觸目: Llama 在 OpenRouter 的推論份額從 2025 年 1 月的 37.4% 高峰一路跌到 2025 年 8 月的 0%; 衍生模型佔比也從 44% 的巔峰掉到 11%。Llama 團隊內部的政治紛爭據傳已經讓組織承受巨大壓力。更根本的問題是: 當模型成本從一億美元往一兆美元走，Meta 當初「用免費模型來把互補品商品化」的邏輯就越來越站不住腳。Lambert 直言:「歷史上從來沒有人用一兆美元的東西來做這件事。」

🔹 Qwen 也出現動搖。 阿里巴巴 Qwen AI 部門的負責人辭職了。Lambert 說他「不太意外」，因為「到了某個時間點，很多開源模型的努力會因為太貴、太同質化而死掉」。Qwen 是目前開源生態裡最接近社群的模型家族，也是研究方法和資料集的事實標準——如果 Qwen 的方向改變，影響會非常大。

🔹 中國新創也看起來搖搖欲墜。 Moonshot AI、MiniMax、Z.ai 這些靠開源模型打出知名度的中國新創，Lambert 判斷它們「在財務上看起來很不穩定」，因為「公開釋出最強模型」和「把資源集中在能產生營收的 AI 產品上」之間存在根本矛盾。經濟壓力會逼它們把開源模型的重心移往能獲利的方向——更小、更垂直的模型，而非前沿通用模型。

🔹 只有 Nvidia 有明確的經濟動機做開源。 Nvidia 釋出開源模型是為了賣更多 GPU——讓更多人在開源模型上建構應用，就需要更多 Nvidia 的硬體。他們的 Nemotron 3 Super 也確實表現亮眼。但 Lambert 指出即使 Nvidia 的立場長期來看也不穩定: 如果 Nemotron 太成功會威脅到最大客戶; 如果前沿實驗室開始自研晶片（2031 年左右），Nvidia 的現金流可能受壓; 更極端的情況是 Nvidia 自己決定不賣 GPU、留著算力來訓練閉源模型。

🔹 開源模型至今沒有可行的商業模式。 Lambert 在跟 Dean Ball 的對談中坦承:「如果模型真的被商品化，情況看起來蠻慘的。」他對 Reflection AI 那種「做一個超強開源模型，然後賣本地部署」的模式也不看好，因為「本地部署跟閉源模型的商業模式沒有本質區別」。那怎麼辦? 他的想法是「嘗試一堆小的不同方向，搞清楚私有資料在哪些部署場景裡真正有差異化，然後跟社群一起迭代」。但他自己也承認:「我的實際方法就是去交一個億萬富翁朋友。」

資本主義的邏輯很殘酷: 當前沿模型能帶來的利潤越來越高，「把技術當慈善捐出去」就越不合理。這就是為什麼 Lambert 認為一個由多家公司共同出資的聯盟最終是不可避免的——很多公司願意付訓練成本的十分之一甚至五十分之一來參與，換取某種程度的方向影響力和早期存取。Yann LeCun 甚至認為未來會是某種「全球聯盟聯合建造」的模式，因為沒有任何一個國家能獨自擁有它。

🔹 授權趨勢往 Apache 2.0 收斂是好消息。 在一片悲觀中，2026 年最值得注意的正面趨勢是 Google 的 Gemma 4 和小米的 MiMo 2.5 Pro 都採用了 Apache 2.0 授權。Lambert 甚至鬆了一口氣說:「那些可怕的 Llama 授權和 Gemma 使用條款是大約 18 個月的過渡期。」Apache 2.0 消除了企業法務的不確定性，對推動採用至關重要。

六、權重只是系統的一部分——開源的結構性劣勢

這是 Lambert 在 What comes next with open models 和跟 Dean Ball 的對談中反覆強調的一個觀點: 現在的 AI 不只是模型權重，而是一個完整的系統: 權重 + 工具 + 整合介面。

他的問題很尖銳: 你上一次被「純粹的自迴歸逐字輸出」驚艷到是什麼時候? 除了數學證明或競賽程式碼，這件事從 GPT-4 發布以來就沒什麼變化了。我們今天用的 AI 系統——Claude Code、Codex、Cursor——它們的價值遠遠超出模型權重本身。搜尋工具、程式碼沙盒、檔案系統整合、使用者介面，這些都是系統的一部分。

這對開源模型意味著什麼?

閉源模型有天然的垂直整合優勢。 它們可以把晶片、推論軟體、模型權重、工具和使用者介面從上到下整合在一起。你用 Claude Code + Opus 4.6 或 Codex + GPT 5.4 的順暢體驗，就是這種整合的結果。開源模型必須在各種推論框架、各種工具、各種使用場景裡都能運作——這本身就是一個巨大的挑戰。Lambert 說，跑一個兩兆參數的開源模型需要大約 80 台 H100 的節點、每天十萬美元的算力成本，還需要專業知識才能把它變成一個可用的系統。

Dean Ball 在對談中把這個問題說得更直接: 當 AI 公司最終發展成「用模型設計自己的晶片、設計自己的資料中心、設計自己的後繼模型」的全整合基礎設施公司時，開源要複製這一切「在定義上就是不可能的」。

編按: Lambert 談的垂直整合主要是部署端的整合，但小編覺得這個優勢其實從訓練階段就開始了。最明顯的例子是 OpenAI 的 apply_patch——一種專為 GPT 模型設計的自訂 diff 格式，用來讓 agent 編輯程式碼。OpenAI 的 Codex Prompting Guide 明確寫道:「我們強烈建議使用我們的 apply_patch 實作，因為模型已經被訓練成擅長這個 diff 格式。」指南中還提到，工具的名稱、參數和輸出格式「越接近模型訓練時用的格式，效果越好，因為這樣最接近模型的訓練分佈」。

GPT-5-Codex 更是被描述為「專門為 Codex 環境中的 agentic coding 而優化的 GPT-5 版本」。到了 GPT-5.3-Codex，OpenAI 直接寫:「這是第一個在自身創建過程中發揮關鍵作用的模型」——團隊用早期版本來除錯自己的訓練、管理部署、診斷評估結果; 工程團隊甚至用 Codex 來「優化和調整 GPT-5.3-Codex 的 harness」。模型和整合介面是互相塑造的。

這意味著閉源實驗室不只是在部署時把模型和工具串在一起，而是在訓練時就把模型和自家工具鏈聯合優化。開源模型拿到的只是權重，但閉源模型的權重裡已經內建了對自家工具鏈的深度適配——這是開源模型即使跑分追上也很難複製的結構性差距。

不過也有一個有趣的反面: 中國的 Moonshot AI 和 Z.ai 推出的寫程式方案需求很高，即使模型本身是開源的。「大部分人就是會用便宜的介面加推論服務，而不是自己去搞模型部署。」這暗示了一種可能: 模型開源，但靠服務和整合賺錢。

七、開源模型的下一階段: 從追趕前沿到找到自己的定位

Lambert 在 What comes next with open models 提出了三層模型分類:

第一層: 閉源前沿模型。 Claude Opus、GPT 5.4 這類，主導最強的知識工作和程式碼 agent。

第二層: 開源前沿模型。 Qwen 3.5、GLM-5、Kimi K2.6、DeepSeek V4 等試圖在同一方向競爭的開源大模型。很多場景下表現很好，但在 agent 的穩定性上仍有差距。

第三層: 開源小型專用模型。 Lambert 認為這才是開源模型最大的未被開發的機會。他的願景是: 每個前沿 agent 重複做十幾次的任務，都可以外包給一個小型開源模型，速度快 10 倍、成本低 100 倍。

他舉了一個很生動的例子:「在一個由程式碼 agent 主導的世界裡，我想做的是建造那些 Claude Code 迫切想要作為工具使用的開源模型。」但目前幾乎沒人在認真做這件事——大家都太沉迷於「開源追趕前沿」的敘事了。

Lambert 的核心判斷是: 只要開源生態繼續被定義為「一群模型供應商追趕閉源實驗室」，它就會一直輸。 閉源公司面臨的整合壓力遲早也會來到開源——而且可能更快。開源模型的出路不是追趕前沿，而是解決前沿實驗室不會去解決的問題: 本地部署、隱私場景、作為前沿 agent 的專用工具、以及各種垂直場景的廉價自動化。

八、2026 模型動態: 誰在崛起、誰在掉隊

最後來看看具體的模型動態。Interconnects 的 Open Artifacts 月報是追蹤開源模型生態最好的來源之一，2026 年到目前為止已經出了三期（#19、#20、#21）。幾個值得注意的趨勢:

🔹 GPT-OSS 是 Llama 3.1 以來最受歡迎的美國開源模型。 ATOM 的 RAM 指標顯示它的採用率破表: GPT-OSS 120B 的 RAM 在發布 7 天內達到 20.45×、180 天後仍有 15.35×（RAM > 1 就代表有望進入該大小類別的歷史前十）; 20B 版本累計下載超過 5,400 萬次（Open Artifacts #19）。美國終於又有了一個有影響力的開源模型，雖然它的首發體驗「在可用性方面很糟糕」，但最終還是靠實力贏得了採用。

編按: 不過「最受歡迎」量的是下載量，不是特定場景的能力。從原文的線索來看，GPT-OSS 被提到的具體用途是 Chroma 拿 GPT-OSS 20B 做 agentic search、Nvidia 出了效率優化版做推論——都不是寫程式場景。寫程式場景的代表反而是 Kimi K2.5（Cursor 用它做 Composer 2）和 Qwen（研究生態的事實標準，Lambert 說「無數的研究方法和資料集都是圍繞 Qwen 建立的」）。GPT-OSS 的高下載量更可能來自美國本土企業偏好（迴避中國模型的法務風險）、做各種微調的基底模型、以及研究用途。

那 Gemma 4 呢? Lambert 在四月的 ATOM Report 中提到 Gemma 4「展現出驚人的早期採用數字」，但比 GPT-OSS 晚了一步。更關鍵的是，過去的 Gemma 模型「一直被工具鏈問題和微調後表現變差所困擾」（Gemma 4 分析），社群信任需要時間重建。開源模型的採用不只是評測分數的競爭，更是生態系的慢功夫。

🔹 DeepSeek V3.2 的採用率嚴重不如預期。 ATOM 報告的 RAM 數字很殘酷: V3.2 發布 7 天的 RAM 只有 0.35×、90 天後也只有 0.60×——遠低於「歷史前十」的 1× 門檻。相比 DeepSeek 2025 年早期的爆發，落差非常大。但 DeepSeek V4 Flash（284B-13B）反而是「真正的明星」——這個相對小的模型表現出乎意料地強，比巨大的 V4 Pro（1.6T-A49B）還受歡迎。小而精悍有時候勝過大而全面。

🔹 小米 MiMo V2.5 Pro 的崛起。 從一年前初次登場到現在，小米的模型進步被形容為「驚人」——MiMo V2.5 Pro 已經能跟 Kimi K2.6 和 GLM-5.1 在評測和實際使用上打平。採用 Apache 2.0 授權也幫了大忙。

🔹 開源生態正在從「通用模型爭霸」轉向「垂直場景百花齊放」。 Open Artifacts #20 被作者稱為「這系列寫過最有趣的一期」——不再是 Qwen、DeepSeek、Kimi 的天下，而是 OCR、語音轉文字、RAG 搜尋、機器人控制、數學定理證明、程式碼編輯等各種垂直場景的模型冒出來。這正好呼應了 Lambert 一直強調的方向: 開源的未來在於多樣化和專用化，而不是「一個模型統治一切」。

🔹 「長時程任務」成為新前沿。 Kimi K2.6、GLM-5.1 等多個模型都在強調能跑數小時來完成任務的能力。這跟閉源 agent（Claude Code、Codex）的發展方向一致，但開源模型要在這個維度上追趕，需要的不只是更好的模型，還有更好的工具鏈和推論基礎設施。

九、2026 下半年值得關注的預判

Lambert 在 My bets on open models, mid-2026 列出了 13 個預判，小編挑幾個最有趣的:

中國開源實驗室會最先面臨資金壓力，可能在 2026 年下半年就會出現。資金困難會在 3-9 個月後反映在模型能力的軌跡上。
美國會在 2027 年初開始慢慢在開源模型的採用指標上收復失地。 代表選手: Google Gemma 4、Nvidia Nemotron、Arcee AI。
開源模型的最大未開發市場是「本地 agent」和「個人 agent」。 Lambert 稱之為「暗物質」——巨大的潛力，但目前幾乎沒人在認真做。
禁止開源模型在實務上不可能執行。 如果美國禁止超過某個算力門檻的開源模型，其他國家遲早會訓練並公開釋出，反而讓這些模型以更少的監管進入美國市場。

看完之後的一些想法

讀完 Lambert 這半年的系列文章，最大的收穫是: 開源 vs 閉源不是一場零和遊戲，也不該被簡化成一個評測分數的追趕賽。

真正有意義的問題不是「開源什麼時候追上閉源」，而是「開源模型在哪些場景下能提供閉源模型無法替代的價值」——無論是主權 AI 的需求、隱私敏感的本地部署、還是作為前沿 agent 的專用工具。

Lambert 自己也承認他對這件事的前景「越來越迷惘」，形容追趕閉源前沿像是推石頭上山——你永遠在推，但石頭永遠會滾下來。但他同時也說:「我從未如此強烈地感到需要建造開源模型。」

這個矛盾本身或許就是 2026 年開源模型最真實的寫照。

2026/6 更新: 開源與閉源走在不同的指數曲線上

本文發布後，Lambert 在六月初又發表了 Open and closed models are on different exponentials，把前面第五、六、七節談的商業模式和定位問題，整理成一個更完整的經濟論述，小編補充在這裡。

他認為決定開源閉源未來權力平衡的核心是經濟問題: 使用者會不會持續為最頂尖的閉源模型付出高額溢價? 2026 年初已經給出第一個答案: coding agent。過了 Opus 4.5 和 Codex 5.2 這個能力門檻後，使用習慣明顯改變，「人們做這個轉換不是因為懶，而是因為淨產出明顯更高」。依賴 coding agent 工作的人永遠會選最好的模型，不會將就「夠用就好」，Lambert 自己說願意為這些工具付每月 2,000 美元。

🔹 閉源實驗室的商業形態: Apple 加上 Microsoft。 權重、harness、工具、推論基礎設施整合在一起的回報巨大: 一面是賣高度整合、極難複製的技術 (Apple)，一面是向整個經濟體賣高槓桿的訂閱 (Microsoft)。Lambert 預期 5-10 年內 OpenAI 和 Anthropic 的估值會落在 2-10 兆美元，前沿實驗室會變成像今天雲端市場那樣的寡占格局。另一個比較新的論點是 API 業務會衰退: 實驗室遲早會延後把最強模型放上 API，以保護 token 供應、防止蒸餾、把模型留給利潤更高的場景。

🔹 開源模型經濟的總價值反而更大，但由一整疊公司分食。 現在的開源模型在分佈外 (out-of-distribution) 任務上還不夠好，但 Lambert 預期開發者終究會停止在排行榜上追逐 Claude 和 GPT，轉而填補低價格帶的缺口。開源模型天生不整合，要靠多家公司協作提供服務，每一層都有替代品，價格會被壓到大宗商品 (commodity) 等級; 企業的典型用法是找到在特定任務上達到「夠好門檻」的模型，之後就不換了 (因為設置成本很高)。整體市場價值會遠超過 OpenAI 加 Anthropic 的總和，具體圖像是 Together、Fireworks、OpenRouter 和超大規模雲端商上的開源推論佔比穩定上升。

🔹 兩條不同的指數曲線。 這是整篇的核心: 不是誰消滅誰的問題。閉源靠整合，從知識工作的頂端開始變現，已經有 product-market fit; 開源會慢得多，但它追蹤的是 AI 向整個經濟和世界的擴散。Lambert 也澄清「遞迴自我改進 (RSI) 會給閉源實驗室不可動搖的優勢」這類說法被誇大了。

文末註腳蠻有意思: Lambert 說 coding agent 這個詞其實很妙，我們在裡面幾乎不寫程式，它們是因為會寫大量程式碼才這麼有能力的通用 agent。對做 AI 應用的人來說，實際的啟示是: 頂級閉源 agent 和便宜的開源推論不是二選一，而是兩種會同時存在的採購邏輯。