從 Interconnects AI 看 2026 開源模型全景: 差距、蒸餾、中國與下一步
如果你關心開源模型的發展,有一個電子報是必讀的: Interconnects AI。
作者 Nathan Lambert 是 AI2(Allen Institute for AI)的研究員,也是 The ATOM Project 的主持人,同時是即將出版的 RLHF Book 的作者,對後訓練技術有很深的第一手理解。
ATOM 值得特別介紹一下。這個計畫 2025 年八月啟動時發了一份被 Lambert 自己稱為「宣言」的備忘錄,核心主張是美國需要認真投資開源模型。到了 2026 年四月,他們發表了配套的技術報告,追蹤了大約 1,500 個主要開源語言模型,累計超過 30 億次下載(2023 年 11 月至 2026 年 3 月)。報告用四個維度衡量生態: HuggingFace 下載量、衍生模型數量、推論市場份額(OpenRouter)、以及效能指標。結論很明確: 中國模型在 2025 年夏天超越美國成為下載量最大的來源國,年增率 11.9 倍; 到 2026 年 3 月,Qwen 累計下載 9.42 億次,是 Llama 的將近兩倍; 中國模型在 OpenRouter 上佔了 72.7% 的 token 份額。開源模型的歷史被劃分為三個階段: 歐洲主導(Mistral 時代)→ 美國主導(Llama 3 時代)→ 中國主導(DeepSeek V3/R1 + Qwen3 時代)。
ATOM 最有意思的工具是 RAM(相對採用率指標): 它把模型的下載量按照發布時間和模型大小做標準化,讓不同時期、不同大小的模型可以放在一起比。RAM > 1 表示這個模型有望進入該大小類別的歷史前十名下載量。Lambert 說這個指標「把一團混亂的生態濃縮成一個容易解讀的數字」。在大家都在吵評測分數的時候,ATOM 提供了一個從實際採用率角度看開源模型的窗口——這個視角目前幾乎沒有其他人在做。
Interconnects 的獨特之處在於: Lambert 不只是在做技術評論,他同時橫跨了技術、地緣政治、商業模式三個維度來觀察開源模型。2026 上半年他寫了一系列非常密集的文章,從二月到五月幾乎每週都有重量級分析——包括開源閉源的效能差距、蒸餾爭議、中國實驗室訪談、開源生態的複利效應、Gemma 4 評估等等。
以下整理出幾個最重要的主題和洞見。
一、開源 vs 閉源的差距到底多大? 答案比你想的複雜
這可能是 2026 年 AI 圈討論度最高的話題之一。很多人喜歡用 Artificial Analysis Intelligence Index 這種綜合評測的單一分數來量化差距,但 Lambert 在 Reading today’s open-closed performance gap 中指出,這種做法遮蓋了太多重要的細節。
🔹 差距大約是 6-18 個月,穩定但更可能拉大。 Lambert 在多篇文章中反覆論證: 開源模型一直落後閉源最前沿大約 6-18 個月,而且考慮到 Anthropic、OpenAI、Google 手上的資源(算力、資料、人才)是開源陣營的 10 倍以上,這個差距能維持這麼小本身就很驚人。但他判斷差距更可能擴大而非縮小。
為什麼? 理由有好幾層:
- 前沿任務正在往更專業的領域發展。 法律、醫療、會計這些高門檻領域的訓練資料不在公開網路上,而且需要昂貴的強化學習環境來訓練。閉源實驗室花「天文數字」買這些資料和環境,開源模型很難複製。
- Agent 時代讓蒸餾變更難。 以前你可以直接拿閉源模型的輸出來訓練,但現在最關鍵的是複雜的強化學習環境和提示詞設計,這些比模型輸出更容易藏起來。
- 閉源模型在「難以衡量的品質」上仍然領先。 特別是穩健性和一般性的好用程度,這些不容易被評測捕捉到。實務上常見的狀況是: 用開源模型跑 agent 得比用 Claude 或 Codex 更頻繁地重置上下文。
🔹 評測的可信度正在下降。 Lambert 觀察到一個弔詭的現象: Gemini 3 拿到「不可思議的評測分數」,但在 agent 實際部署場景裡卻「顯得格外無關」。他直言,在後訓練技術快速演進的時代,他對評測的信心處於「相對低點」。
2026 五月的 Open Artifacts #21 更進一步呈現了這個爭議: 美國 NIST 下的 CAISI 用 IRT 方法分析 DeepSeek V4,結論是差距正在擴大; 但 Epoch AI 的 ECI 指標卻顯示差距自 R1 以來一直穩定在 3-7 個月。兩個結論完全相反。
Interconnects 團隊的 Florian Brand 和 Lambert 本人也有分歧: Florian 認為開源模型在真實效能上比評測顯示的更接近閉源模型; Lambert 則認為閉源模型領先的幅度比 Florian 想的更大。
小編覺得這個「團隊內部公開唱反調」蠻健康的——至少讓讀者知道,即使是最接近資料的人,判斷也沒有共識。
二、蒸餾: 沒你想的那麼重要,但恐慌很危險
2026 年二月,Anthropic 點名指控 DeepSeek、Moonshot AI、MiniMax 三家中國實驗室透過約 24,000 個假帳號、超過 1,600 萬次對話來「蒸餾」Claude。這件事在業界炸開了鍋。
Lambert 在 How much does distillation really matter 做了非常細緻的分析:
🔹 DeepSeek 的 15 萬次對話影響可忽略不計。 在訓練語言模型的量級裡,15 萬筆資料「只是抓個表面」。但 Moonshot 和 MiniMax 合計的對話量換算成 token 大約是 1,500-4,000 億,這個量級「確實可能有意義地改善後訓練」。
🔹 蒸餾的效果其實很「鋸齒狀」。 直接拿老師模型的輸出來訓練學生模型並不簡單——研究社群已經看到很多案例,某些老師的輸出反而會讓學生模型變差。這本質上是一個研究問題,不是複製貼上就能搞定的。
🔹 強化學習時代限制了蒸餾的價值。 這是 Lambert 認為最被低估的因素: 在大規模強化學習訓練的時代,你需要模型自己產生策略內的生成——這些生成佔了訓練中的大部分算力成本,而且不能用別的模型的生成來替代。換句話說,即使你拿到了 Claude 的輸出,你還是得靠自己的算力讓模型從自身的生成中學習。
到了五月,Lambert 在 The Distillation Panic 更直接地警告: 把這些行為叫做「蒸餾攻擊」是個危險的用詞。他的論點是,這些中國實驗室真正在做的是越獄和濫用 API,不是蒸餾本身有問題。蒸餾是整個 AI 產業的標準作法——Nvidia 的 Nemotron 蒸餾了中國開源模型,AI2 的 OLMo 蒸餾了多個閉源和開源模型,xAI 在法庭上也承認蒸餾了 OpenAI。
編按: Elon Musk 在 OpenAI 訴訟案中被問到 xAI 是否有蒸餾 OpenAI 的技術,他的回答是:「一般來說 AI 公司都會蒸餾其他 AI 公司。」被追問「這算是承認嗎?」他說:「某種程度上。」
Lambert 最擔心的不是蒸餾本身,而是這個恐慌可能引發的監管連鎖反應: 美國國會正在推動 H.R. 8283 法案、行政命令也在施壓——如果最終結果是有效禁止所有由「曾經蒸餾過閉源 API」的組織開發的開源模型,受傷最深的會是西方的學術界和小型開源貢獻者,而不是中國實驗室。因為中國實驗室「很可能還是會繼續做」。
他引用了 Kevin Xu 的一個很有意思的戰略論點: 如果中國公司一直依賴蒸餾當捷徑來接近前沿,他們永遠不會真正學到獨立領先的技術。美國切斷這個「拐杖」,短期會拉開差距,但長期反而可能逼中國發展出更獨立的能力——這跟半導體出口管制的辯論邏輯一模一樣。
三、中國實驗室: 從內部看到了什麼
Lambert 在 2026 年四月親自去了一趟中國,36 小時內拜訪了 Z.ai、Moonshot AI、清華、美團、小米、01.ai。他在 Notes from inside China’s AI labs 寫下了一些非常第一手的觀察:
🔹 文化優勢在於「執行力」而非「創新力」。 中國實驗室的核心貢獻者有很大比例是在讀的研究生,跟美國頂尖實驗室(OpenAI、Anthropic、Cursor 等根本不提供實習)完全不同。學生文化帶來四個優勢: 更願意做不起眼但必要的工作、個人英雄主義少讓組織更好擴展、新鮮視角能更快適應新技術、充沛人才適合解決已有概念驗證的問題。
🔹 中國研究員對 AI 的「哲學問題」幾乎沒有興趣。 當被問到經濟或長期社會風險時,他們的態度很直接: 這些問題跟我無關,我的工作就是把模型做好。Lambert 形容一位他遇到的研究員把這類問題當成「範疇錯誤」。一位研究員引用了 Dan Wang 的觀點: 中國是工程師在管理國家,美國是律師在管理國家。Lambert 後來也補充修正了自己的觀察: 這種務實態度不只是個人選擇,也跟他們成長的體制有關——在一個不鼓勵對社會結構發表意見的環境裡,專注技術本身是更自然的選擇。另外,中國也沒有像 Dwarkesh 或 Lex 這類讓科學家變成「明星」的媒體管道,科研人員沒有系統性地建立個人影響力的路徑。
🔹 幾乎所有中國 AI 開發者都用 Claude 來寫程式。 這可能是整篇文章最讓人意外的發現——儘管 Claude 在中國名義上是被封鎖的。Lambert 說他訪問的每個人都提到在用 Claude。這也側面說明了中國的 AI 推論需求可能比按 SaaS 市場規模去推算的要大得多——中國的 SaaS 支出歷來很低,但雲端市場本身是龐大的。Lambert 認為 AI 的企業支出更接近雲端市場的邏輯,而非 SaaS 市場。
🔹 Nvidia 晶片依然是黃金標準。 訓練端大家都缺 Nvidia 的卡,有供應一定買。華為等替代方案目前只在推論端被正面提及。
🔹 中國的資料產業品質落後,但「自己造」的文化很強。 美國實驗室花千萬美元買單一強化學習環境,中國實驗室覺得國內資料產業品質不夠好,很多東西得自己造。研究員本人會花大量時間打造訓練環境。更大的公司如字節跳動和阿里巴巴則有內部的資料標註團隊。
🔹 每家中國科技公司都在自建 LLM——這在美國幾乎不可思議。 美團做外賣的、小米做手機的,都在訓練自己的通用語言模型。在美國,同等規模的公司只會去買 API 服務。驅動力是一種「深層的渴望去控制自己的技術堆疊」: 微調能強化自家的技術底盤、內部版本服務自家產品、開源版本則從社群拿回饋。這種「開源優先」的心態主要是出於實用主義,不是什麼開源理想。
🔹 中國 AI 產業更像是「生態系」而非「部落戰爭」。 Lambert 觀察到中國實驗室之間的氛圍是「充滿對同行的尊重」,跟美國實驗室私下見面時「火花四濺」的風格截然不同。所有人都敬畏字節跳動/豆包的實力(中國唯一的前沿閉源實驗室)、尊重 DeepSeek 的研究品味(但認為它的組織不適合在經濟上贏)、認為阿里巴巴憑資源最終會贏得大部分市場。
四、開源生態的複利效應
Lambert 在五月的 How open model ecosystems compound 提出了一個精妙的分析框架:
🔹 訓練前沿模型的算力,80% 花在研發而非最終訓練。 這個數字來自 AI2 的 OLMo 3 開發紀錄和 Epoch AI 對各大實驗室的成本研究。大眾對 AI 模型成本的印象一直被誤導——以為錢主要花在最終那一次大規模訓練上,但實際上絕大部分算力花在實驗、測試、調參這些研發過程。
這個發現的意義在於: 在中國這種所有領先玩家都開源的生態裡,大家可以迅速從同行的研究中學習,避免重複浪費研發算力。這就是為什麼中國的開源模型生態有「複利效應」——每一家實驗室發表詳盡的技術報告,等於在幫其他實驗室降低風險,讓他們不用獨立投入同樣的資源。
🔹 但開源 AI ≠ 傳統開源軟體。 Lambert 很小心地做了區分: 傳統開源軟體有一個從使用者到開發者的回饋循環(Linus’s Law:「只要有夠多雙眼睛,所有 bug 都很淺顯」)。但開源 AI 幾乎不存在這個回饋循環——幾乎所有成本都落在模型開發者身上。開源 AI 模型是「降低未來開發成本的工具」,不是即插即用的解決方案。如果你只是拿來用、不做任何迭代,用開源模型幾乎一定比用閉源 API 更貴。
五、誰還在做開源? 商業模式的困局
Lambert 在多篇文章中反覆提到一個越來越緊迫的問題: 願意釋出前沿開源模型的玩家正在減少。
🔹 Meta 已經在轉向。 Meta 的 Llama 曾經是開源模型的代名詞,但 Lambert 在 The inevitable need for an open model consortium 中指出,Meta 正在把重心從 Llama 移開。ATOM 報告的數據讓這個趨勢更加觸目: Llama 在 OpenRouter 的推論份額從 2025 年 1 月的 37.4% 高峰一路跌到 2025 年 8 月的 0%; 衍生模型佔比也從 44% 的巔峰掉到 11%。Llama 團隊內部的政治紛爭據傳已經讓組織承受巨大壓力。更根本的問題是: 當模型成本從一億美元往一兆美元走,Meta 當初「用免費模型來把互補品商品化」的邏輯就越來越站不住腳。Lambert 直言:「歷史上從來沒有人用一兆美元的東西來做這件事。」
🔹 Qwen 也出現動搖。 阿里巴巴 Qwen AI 部門的負責人辭職了。Lambert 說他「不太意外」,因為「到了某個時間點,很多開源模型的努力會因為太貴、太同質化而死掉」。Qwen 是目前開源生態裡最接近社群的模型家族,也是研究方法和資料集的事實標準——如果 Qwen 的方向改變,影響會非常大。
🔹 中國新創也看起來搖搖欲墜。 Moonshot AI、MiniMax、Z.ai 這些靠開源模型打出知名度的中國新創,Lambert 判斷它們「在財務上看起來很不穩定」,因為「公開釋出最強模型」和「把資源集中在能產生營收的 AI 產品上」之間存在根本矛盾。經濟壓力會逼它們把開源模型的重心移往能獲利的方向——更小、更垂直的模型,而非前沿通用模型。
🔹 只有 Nvidia 有明確的經濟動機做開源。 Nvidia 釋出開源模型是為了賣更多 GPU——讓更多人在開源模型上建構應用,就需要更多 Nvidia 的硬體。他們的 Nemotron 3 Super 也確實表現亮眼。但 Lambert 指出即使 Nvidia 的立場長期來看也不穩定: 如果 Nemotron 太成功會威脅到最大客戶; 如果前沿實驗室開始自研晶片(2031 年左右),Nvidia 的現金流可能受壓; 更極端的情況是 Nvidia 自己決定不賣 GPU、留著算力來訓練閉源模型。
🔹 開源模型至今沒有可行的商業模式。 Lambert 在跟 Dean Ball 的對談中坦承:「如果模型真的被商品化,情況看起來蠻慘的。」他對 Reflection AI 那種「做一個超強開源模型,然後賣本地部署」的模式也不看好,因為「本地部署跟閉源模型的商業模式沒有本質區別」。那怎麼辦? 他的想法是「嘗試一堆小的不同方向,搞清楚私有資料在哪些部署場景裡真正有差異化,然後跟社群一起迭代」。但他自己也承認:「我的實際方法就是去交一個億萬富翁朋友。」
資本主義的邏輯很殘酷: 當前沿模型能帶來的利潤越來越高,「把技術當慈善捐出去」就越不合理。這就是為什麼 Lambert 認為一個由多家公司共同出資的聯盟最終是不可避免的——很多公司願意付訓練成本的十分之一甚至五十分之一來參與,換取某種程度的方向影響力和早期存取。Yann LeCun 甚至認為未來會是某種「全球聯盟聯合建造」的模式,因為沒有任何一個國家能獨自擁有它。
🔹 授權趨勢往 Apache 2.0 收斂是好消息。 在一片悲觀中,2026 年最值得注意的正面趨勢是 Google 的 Gemma 4 和小米的 MiMo 2.5 Pro 都採用了 Apache 2.0 授權。Lambert 甚至鬆了一口氣說:「那些可怕的 Llama 授權和 Gemma 使用條款是大約 18 個月的過渡期。」Apache 2.0 消除了企業法務的不確定性,對推動採用至關重要。
六、權重只是系統的一部分——開源的結構性劣勢
這是 Lambert 在 What comes next with open models 和跟 Dean Ball 的對談中反覆強調的一個觀點: 現在的 AI 不只是模型權重,而是一個完整的系統: 權重 + 工具 + 整合介面。
他的問題很尖銳: 你上一次被「純粹的自迴歸逐字輸出」驚艷到是什麼時候? 除了數學證明或競賽程式碼,這件事從 GPT-4 發布以來就沒什麼變化了。我們今天用的 AI 系統——Claude Code、Codex、Cursor——它們的價值遠遠超出模型權重本身。搜尋工具、程式碼沙盒、檔案系統整合、使用者介面,這些都是系統的一部分。
這對開源模型意味著什麼?
閉源模型有天然的垂直整合優勢。 它們可以把晶片、推論軟體、模型權重、工具和使用者介面從上到下整合在一起。你用 Claude Code + Opus 4.6 或 Codex + GPT 5.4 的順暢體驗,就是這種整合的結果。開源模型必須在各種推論框架、各種工具、各種使用場景裡都能運作——這本身就是一個巨大的挑戰。Lambert 說,跑一個兩兆參數的開源模型需要大約 80 台 H100 的節點、每天十萬美元的算力成本,還需要專業知識才能把它變成一個可用的系統。
Dean Ball 在對談中把這個問題說得更直接: 當 AI 公司最終發展成「用模型設計自己的晶片、設計自己的資料中心、設計自己的後繼模型」的全整合基礎設施公司時,開源要複製這一切「在定義上就是不可能的」。
編按: Lambert 談的垂直整合主要是部署端的整合,但小編覺得這個優勢其實從訓練階段就開始了。最明顯的例子是 OpenAI 的
apply_patch——一種專為 GPT 模型設計的自訂 diff 格式,用來讓 agent 編輯程式碼。OpenAI 的 Codex Prompting Guide 明確寫道:「我們強烈建議使用我們的apply_patch實作,因為模型已經被訓練成擅長這個 diff 格式。」指南中還提到,工具的名稱、參數和輸出格式「越接近模型訓練時用的格式,效果越好,因為這樣最接近模型的訓練分佈」。GPT-5-Codex 更是被描述為「專門為 Codex 環境中的 agentic coding 而優化的 GPT-5 版本」。到了 GPT-5.3-Codex,OpenAI 直接寫:「這是第一個在自身創建過程中發揮關鍵作用的模型」——團隊用早期版本來除錯自己的訓練、管理部署、診斷評估結果; 工程團隊甚至用 Codex 來「優化和調整 GPT-5.3-Codex 的 harness」。模型和整合介面是互相塑造的。
這意味著閉源實驗室不只是在部署時把模型和工具串在一起,而是在訓練時就把模型和自家工具鏈聯合優化。開源模型拿到的只是權重,但閉源模型的權重裡已經內建了對自家工具鏈的深度適配——這是開源模型即使跑分追上也很難複製的結構性差距。
不過也有一個有趣的反面: 中國的 Moonshot AI 和 Z.ai 推出的寫程式方案需求很高,即使模型本身是開源的。「大部分人就是會用便宜的介面加推論服務,而不是自己去搞模型部署。」這暗示了一種可能: 模型開源,但靠服務和整合賺錢。
七、開源模型的下一階段: 從追趕前沿到找到自己的定位
Lambert 在 What comes next with open models 提出了三層模型分類:
第一層: 閉源前沿模型。 Claude Opus、GPT 5.4 這類,主導最強的知識工作和程式碼 agent。
第二層: 開源前沿模型。 Qwen 3.5、GLM-5、Kimi K2.6、DeepSeek V4 等試圖在同一方向競爭的開源大模型。很多場景下表現很好,但在 agent 的穩定性上仍有差距。
第三層: 開源小型專用模型。 Lambert 認為這才是開源模型最大的未被開發的機會。他的願景是: 每個前沿 agent 重複做十幾次的任務,都可以外包給一個小型開源模型,速度快 10 倍、成本低 100 倍。
他舉了一個很生動的例子:「在一個由程式碼 agent 主導的世界裡,我想做的是建造那些 Claude Code 迫切想要作為工具使用的開源模型。」但目前幾乎沒人在認真做這件事——大家都太沉迷於「開源追趕前沿」的敘事了。
Lambert 的核心判斷是: 只要開源生態繼續被定義為「一群模型供應商追趕閉源實驗室」,它就會一直輸。 閉源公司面臨的整合壓力遲早也會來到開源——而且可能更快。開源模型的出路不是追趕前沿,而是解決前沿實驗室不會去解決的問題: 本地部署、隱私場景、作為前沿 agent 的專用工具、以及各種垂直場景的廉價自動化。
八、2026 模型動態: 誰在崛起、誰在掉隊
最後來看看具體的模型動態。Interconnects 的 Open Artifacts 月報是追蹤開源模型生態最好的來源之一,2026 年到目前為止已經出了三期(#19、#20、#21)。幾個值得注意的趨勢:
🔹 GPT-OSS 是 Llama 3.1 以來最受歡迎的美國開源模型。 ATOM 的 RAM 指標顯示它的採用率破表: GPT-OSS 120B 的 RAM 在發布 7 天內達到 20.45×、180 天後仍有 15.35×(RAM > 1 就代表有望進入該大小類別的歷史前十); 20B 版本累計下載超過 5,400 萬次(Open Artifacts #19)。美國終於又有了一個有影響力的開源模型,雖然它的首發體驗「在可用性方面很糟糕」,但最終還是靠實力贏得了採用。
編按: 不過「最受歡迎」量的是下載量,不是特定場景的能力。從原文的線索來看,GPT-OSS 被提到的具體用途是 Chroma 拿 GPT-OSS 20B 做 agentic search、Nvidia 出了效率優化版做推論——都不是寫程式場景。寫程式場景的代表反而是 Kimi K2.5(Cursor 用它做 Composer 2)和 Qwen(研究生態的事實標準,Lambert 說「無數的研究方法和資料集都是圍繞 Qwen 建立的」)。GPT-OSS 的高下載量更可能來自美國本土企業偏好(迴避中國模型的法務風險)、做各種微調的基底模型、以及研究用途。
那 Gemma 4 呢? Lambert 在四月的 ATOM Report 中提到 Gemma 4「展現出驚人的早期採用數字」,但比 GPT-OSS 晚了一步。更關鍵的是,過去的 Gemma 模型「一直被工具鏈問題和微調後表現變差所困擾」(Gemma 4 分析),社群信任需要時間重建。開源模型的採用不只是評測分數的競爭,更是生態系的慢功夫。
🔹 DeepSeek V3.2 的採用率嚴重不如預期。 ATOM 報告的 RAM 數字很殘酷: V3.2 發布 7 天的 RAM 只有 0.35×、90 天後也只有 0.60×——遠低於「歷史前十」的 1× 門檻。相比 DeepSeek 2025 年早期的爆發,落差非常大。但 DeepSeek V4 Flash(284B-13B)反而是「真正的明星」——這個相對小的模型表現出乎意料地強,比巨大的 V4 Pro(1.6T-A49B)還受歡迎。小而精悍有時候勝過大而全面。
🔹 小米 MiMo V2.5 Pro 的崛起。 從一年前初次登場到現在,小米的模型進步被形容為「驚人」——MiMo V2.5 Pro 已經能跟 Kimi K2.6 和 GLM-5.1 在評測和實際使用上打平。採用 Apache 2.0 授權也幫了大忙。
🔹 開源生態正在從「通用模型爭霸」轉向「垂直場景百花齊放」。 Open Artifacts #20 被作者稱為「這系列寫過最有趣的一期」——不再是 Qwen、DeepSeek、Kimi 的天下,而是 OCR、語音轉文字、RAG 搜尋、機器人控制、數學定理證明、程式碼編輯等各種垂直場景的模型冒出來。這正好呼應了 Lambert 一直強調的方向: 開源的未來在於多樣化和專用化,而不是「一個模型統治一切」。
🔹 「長時程任務」成為新前沿。 Kimi K2.6、GLM-5.1 等多個模型都在強調能跑數小時來完成任務的能力。這跟閉源 agent(Claude Code、Codex)的發展方向一致,但開源模型要在這個維度上追趕,需要的不只是更好的模型,還有更好的工具鏈和推論基礎設施。
九、2026 下半年值得關注的預判
Lambert 在 My bets on open models, mid-2026 列出了 13 個預判,小編挑幾個最有趣的:
- 中國開源實驗室會最先面臨資金壓力,可能在 2026 年下半年就會出現。資金困難會在 3-9 個月後反映在模型能力的軌跡上。
- 美國會在 2027 年初開始慢慢在開源模型的採用指標上收復失地。 代表選手: Google Gemma 4、Nvidia Nemotron、Arcee AI。
- 開源模型的最大未開發市場是「本地 agent」和「個人 agent」。 Lambert 稱之為「暗物質」——巨大的潛力,但目前幾乎沒人在認真做。
- 禁止開源模型在實務上不可能執行。 如果美國禁止超過某個算力門檻的開源模型,其他國家遲早會訓練並公開釋出,反而讓這些模型以更少的監管進入美國市場。
看完之後的一些想法
讀完 Lambert 這半年的系列文章,最大的收穫是: 開源 vs 閉源不是一場零和遊戲,也不該被簡化成一個評測分數的追趕賽。
真正有意義的問題不是「開源什麼時候追上閉源」,而是「開源模型在哪些場景下能提供閉源模型無法替代的價值」——無論是主權 AI 的需求、隱私敏感的本地部署、還是作為前沿 agent 的專用工具。
Lambert 自己也承認他對這件事的前景「越來越迷惘」,形容追趕閉源前沿像是推石頭上山——你永遠在推,但石頭永遠會滾下來。但他同時也說:「我從未如此強烈地感到需要建造開源模型。」
這個矛盾本身或許就是 2026 年開源模型最真實的寫照。