Microsoft AI: 從零練起的 MAI 模型和平台佈局
你可能知道 Microsoft 跟 OpenAI 合作很深,但比較少人注意到: Microsoft 其實在兩年前就默默開始自己練模型了。
MAI (Microsoft AI) 是 2024 年 Microsoft 收購 DeepMind 共同創辦人 Mustafa Suleyman 的 Inflection AI 後成立的內部前沿模型實驗室。定位上跟 OpenAI 的合作是並行的: OpenAI 繼續提供 GPT 系列,MAI 則讓 Microsoft 擁有完全自主掌控的模型線。
你可能會問: Microsoft 不是已經有 Phi 系列了嗎? Phi 是 Microsoft Research 做的開源小模型(最新的 Phi-4-reasoning 是 15B 參數),定位在研究貢獻和邊緣裝置部署。MAI 則完全不同: 閉源、前沿規模(1T 參數)、目標是跟 OpenAI、Anthropic、Google DeepMind 同級。兩個是不同團隊、不同目標的產品線。小編之前也沒特別關注這個團隊,直到六月初的 Build 2026 上他們一口氣端出七個模型,才發現值得關注一下。
這七個模型涵蓋推理、程式碼、圖片生成、語音合成和語音辨識,從組建團隊算起只花了約兩年。對做 LLM 應用的開發者來說,多了一個選擇,但更值得關注的是背後的平台策略和技術決策思路。
七個模型,哪些跟你有關
| 模型 | 定位 | 狀態 | 取用方式 |
|---|---|---|---|
| MAI-Thinking-1 | 旗艦推理,35B 活躍參數的 MoE 架構,256K context | 內部預覽 | Microsoft Foundry,即將開放公開預覽 |
| MAI-Code-1-Flash | 5B 輕量程式碼模型 | 已上線 | VS Code GitHub Copilot |
| MAI-Image-2.5 | 圖片生成/編輯 | 已上線 | Foundry、OpenRouter API、PowerPoint |
| MAI-Image-2.5-Flash | 上者的低成本版 | 已上線 | 同上 |
| MAI-Transcribe-1.5 | 語音轉文字,支援 43 語言 | 已上線 | Foundry、Teams |
| MAI-Voice-2 | 文字轉語音,可用少量錄音複製聲紋 | 已上線 | Foundry、VS Code |
部分模型也上了 OpenRouter、Fireworks、Baseten 等第三方推理平台。目前沒有開源權重的計畫,走的是 API 和平台模式。
Image 2.5 定價參考(每百萬 token): 文字輸入 $5 / 圖片輸入 $8 / 圖片輸出 $47。Flash 版約便宜 3-4 倍。
跟現有選擇比如何
先看 MAI-Thinking-1 的 benchmark 數字:
| Benchmark | MAI-Thinking-1 | Sonnet 4.6 | Opus 4.6 |
|---|---|---|---|
| AIME 2025 (數學推理) | 97.0% | 95.6% | 99.8% |
| SWE-Bench Pro (程式碼) | 52.8% | – | 53.4% |
| SWE-Bench Verified (程式碼) | 73.5% | 79.6% | 80.8% |
| GPQA Diamond (科學問答) | 84.2% | 89.9% | 91.3% |
| IF Bench (指令遵循) | 69 | 86 | – |
人類盲測對比 Sonnet 4.6: 49% 贏、45% 輸、6% 平手。對比 Opus 4.6: 43% 贏、52% 輸。
論文自己的定位很克制: 「不是領域最強,但在廣泛任務上表現穩定一致。」
社群也注意到幾點:
- 比較對象的選擇: Anthropic 在 Build 2026 前幾天才發布了 Opus 4.8,但 MAI 選擇跟較早的 Sonnet 4.6 做比較。
- 數字尚未獨立驗證: 截至目前,第三方評測聚合器上還沒有 MAI-Thinking-1 的獨立測試結果。
- 明顯弱項: 指令遵循能力和終端操作(Terminal-Bench)跟競品差距不小,如果你的應用重度依賴複雜指令,這點要留意。
小編的判斷: 作為第一個版本,MAI-Thinking-1 大致在 Sonnet 4.6 同級。如果你已經在用 Claude 或 GPT,目前沒有強烈理由切換。但如果你本來就深度使用 Microsoft 生態系(Azure、GitHub、M365),整合度是加分項。
MAI-Code-1-Flash: Copilot 裡的新選項
對每天在寫程式的人來說,MAI-Code-1-Flash 可能是最直接相關的:
- 只有 5B 參數,但 SWE-Bench Pro 拿到 51.2% (Claude Haiku 4.5 是 35.2%)
- 解決困難問題時,token 用量比同級模型少 60%
- 有「自適應回應長度」機制: 簡單問題快速回答,複雜問題才展開長思考
- 直接在 VS Code 的 Copilot 模型選擇器裡選用,不需額外設定
這個模型是直接用 GitHub Copilot 的正式環境訓練的,不是單純對 benchmark 最佳化。對日常寫程式來說,回應速度和 token 效率可能比 benchmark 分數更重要。
零蒸餾: 對開發者意味著什麼
MAI-Thinking-1 有一個特別的設計選擇: 完全不使用其他模型的蒸餾(也就是不拿 GPT、Claude 等模型的輸出當訓練資料),推理能力純粹靠自己的強化學習訓練學出來。也不使用合成資料,30T tokens 預訓練資料全部來自人類產出的內容。
這對下游開發者有什麼意義?
🔹 企業法務面: 如同 @eliebakouch 的分析,乾淨的資料來源讓企業法務更容易簽字放行。如果你的客戶是大企業或受監管產業,「這個模型沒有用到競爭對手的輸出當訓練資料」是一個可以寫進合約裡的保證。
🔹 供應鏈獨立性: 不依賴其他實驗室的模型輸出,意味著 Microsoft 的模型改進不會被上游的 API 政策變動影響。對長期使用 Microsoft 生態系的開發者來說,這是穩定性的保證。
不過社群對「乾淨資料」的說法也有質疑。Simon Willison 指出訓練資料包含 1.2 兆頁公開網頁爬蟲和 GitHub 程式碼。Hacker News 上的討論認為,GitHub 改了使用條款允許用使用者資料訓練 AI,這大概就是所謂「合規授權資料」的意思,跟其他實驗室的做法沒有本質差異。所以「乾淨」更多是指「沒用別家模型的輸出」,不是「完全沒有版權爭議」。
Frontier Tuning: 讓模型變成你的
這次發布中對開發者最有戰略意義的可能是 Frontier Tuning。核心概念:
🔹 強化學習環境(RLE): 你建立自己的訓練環境,讓 MAI 模型在你的工作流程中持續學習。不只是 prompt 調整或 LoRA 微調,是真的在你的場景裡做強化學習。
🔹 實際效果: Microsoft 內部用 RLE 針對 Excel 的 agent 功能調校,結果跟 GPT-5.4 同等水準但效率高 10 倍。幫 McKinsey 調校後,品質勝過 GPT-5.5,成本低 10 倍。
🔹 商業定位: Mustafa 描述為「從租用 AI 到掌控 AI」。調校後的模型權重是你的,別人拿不到。
不過 Hacker News 上也有人吐槽: 實際體驗是一個資料標註介面,需要你提供指令和回饋,每步之間要等很久。離「模型自動觀察你的工作流然後學會」還有段距離。
Satya 的觀點: 對架構決策的啟發
Satya 在 Latent Space 訪談中分享的幾個觀點,對做 LLM 應用架構決策的人蠻有參考價值:
🔹 模型只是起點,harness 才是產品: 每個 Microsoft 產品(GitHub Copilot、Defender)現在都是 multi-model harness,定義了「模型 + 資料 + 工具」的迴圈。上下文層的準備工作是過去兩年最難學到的一課。
🔹 私有評估集是最大的護城河: 如果你有自己的 eval,能在不同模型間切換並持續進步,你就掌握主動權。如果你的系統綁死一個模型、沒辦法換,你就沒有議價能力。
🔹 Token 資產: 企業累積的執行軌跡(traces)、評估集、上下文是新型態的智慧財產。這個觀點對正在建 AI 產品的團隊很重要: 你的護城河不在於你用哪個模型,而在於你累積了什麼資料和評估能力。
🔹 小模型 + 好的 harness 一樣能有效爬坡: 不一定要用最大最貴的模型。5B 參數的 MAI-Code-1-Flash 在正確的 harness 下表現超越大很多的模型。這呼應了「用小模型 + 好的 harness」可能比「直接用最大模型」更划算的實務經驗。
技術報告: 有趣的訓練細節
這份 109 頁的技術報告是這次發布中讓社群最驚喜的部分。@nrehiew_ 稱它「幾乎可以當成今天 LLM 訓練的教科書」,Latent Space 則評價 MAI 目前是「不錯的第二梯隊新實驗室,在特定領域微調上有明確優勢」。以下挑幾個有意思的點:
架構: 大容量但省推理成本
MAI-Thinking-1 總參數量約 1T,但每次推理只啟動 35B(512 個專家模組裡挑 8 個)。好處是模型知識容量大但推理成本可控。另一個設計是注意力機制大部分層只看附近的文字(局部注意力),每隔幾層才做一次全文注意力,讓 256K 的長上下文不會讓推理成本暴增。
推理能力是強化學習從零練出來的
跟很多模型先拿 GPT/Claude 的思考過程做蒸餾不同,MAI-Thinking-1 的強化學習起點是一個完全沒見過「思考過程」的基底模型。訓練分成三條路線同時進行: 數學/科學推理、程式碼/工具使用、對話品質與安全性,各自練完再合併成一個模型。
論文展示了數學能力(AIME 2025)從約 20% 爬到 97% 的完整過程,花了約 5000 步。中間有好幾次訓練崩潰,靠的是「自我蒸餾」恢復: 把模型之前產出的好答案收集起來,先微調回穩定狀態,然後繼續強化學習。這種「崩了就從自己的好輸出重來」的做法蠻實務的。
程式碼能力的訓練資料怎麼來的
他們從 GitHub 上 1.02 億個 PR 出發,自動篩選出 26.5 萬個「可以驗證對錯」的程式修改環境(覆蓋 9.4 萬個 repo),拿來當強化學習的訓練場。模型要實際讀程式碼、改程式碼、跑測試,答對才有獎勵。這個規模和方法對做 coding agent 評估的團隊蠻有參考價值。
小規模實驗的結論不一定能放大
論文揭示了一個有趣的陷阱: 用小模型測試出「資料配比 A 比 B 好」,放大到完整規模後結論可能反轉。實際案例是程式碼比重高的配比在大模型上勝出,但在小模型上反而輸。這對所有在做規模擴展決策或評估設計的人都是個提醒: 小實驗的結論要謹慎外推。
訓練規模
預訓練用了 30T tokens、8,192 張 GB200 GPU。強化學習階段最大的一次訓練動用了 4,864 張 GB300 晶片。
平台佈局: 跟 OpenAI 的關係怎麼了
要理解 MAI 的戰略意義,得先知道背景: 2026 年 4 月,Microsoft 跟 OpenAI 重新談判了合約。OpenAI 解除了只能透過 Azure 發行的限制,可以到其他雲端上架;同時 Microsoft 也正式獲得自行訓練前沿模型的自由。Suleyman 在受訪時說: 「我們大約在六個月前才從 OpenAI 合約中解放出來,可以正式追求超智慧。所以這還是非常早期的階段。」
他也很坦白地定位 MAI 的現況: 「目標是證明我們能成為全球前四的實驗室。目前重要的三家是 Google DeepMind、OpenAI、Anthropic,我們還不算在其中。」
這讓 Azure 上的模型供給格局從「幾乎只有 OpenAI」變成三條路線並存:
| 路線 | 適合場景 |
|---|---|
| MAI (自家模型) | 企業合規、成本敏感的日常工作負載、Azure 深度整合 |
| OpenAI on Azure | 最難的推理任務、需要最強模型能力時 |
| 開源/合作夥伴模型 (Llama, Mistral 等) | 需要微調、資料駐留要求、特定任務 |
Digital Applied 的分析認為,Azure 開發者現在應該根據任務需求在三條路線之間挑選,而不是像以前一樣預設什麼都用 OpenAI。
Microsoft Foundry: 開發者實際接觸的界面
對開發者來說,這些模型都是透過 Microsoft Foundry (原 Azure AI Foundry) 來使用的。幾個跟開發者直接相關的功能:
🔹 模型目錄: 超過 12,000 個模型,包含 MAI、OpenAI、Claude、Grok、Llama、Mistral、DeepSeek 等。80% 的 Fortune 500 企業在使用。
🔹 Model Router: 根據工作負載特性、成本目標、延遲要求,自動把每個請求路由到最合適的模型。不需要自己寫 routing 邏輯。
🔹 API 相容性: REST API 走 /openai/v1/ 路由(chat/completions, embeddings, fine-tuning 等),SDK 支援 Python、.NET、JS/TS、Java。如果你已經在用 OpenAI 格式的 API,切換成本很低。
🔹 Agent Service: 託管式 agent 運行環境,有沙箱隔離、狀態管理、檔案系統存取。
MAIA 200 晶片對開發者的影響: 開發者不會直接碰到這顆晶片(目前沒有 Azure VM 實例可以租)。它是在 Foundry API 背後默默跑的,好處是 MAI 模型的 token 定價會比較低。Mustafa 表示在 MAIA 200 上跑 MAI 模型比 NVIDIA GB200 每美元效能高 30%、每瓦效能高 1.4 倍。
產品整合和垂直領域
🔹 跨產品整合: MAI 模型已經嵌入 GitHub Copilot (Code-1-Flash)、Microsoft Teams (Transcribe)、PowerPoint (Image 2.5)、Dynamics 365 (Voice 2)。這種深度整合是第三方模型做不到的。
🔹 Mayo Clinic 合作: Microsoft 宣布與 Mayo Clinic 合作,用去識別化的臨床資料共同訓練醫療領域的前沿模型。這是 Frontier Tuning 在垂直領域的第一個公開案例。
🔹 Satya 的第三幕定位: 在 Latent Space 訪談中,Satya 把 Microsoft 的演進描述為「作業系統公司 → 雲端公司 → 智慧平台公司」。MAI 模型是這個「第三幕」的基礎設施層。
WindowsForum 的評論則比較冷靜: 「MAI 讓 Microsoft 對自己的 AI 命運有更多掌控權,但不代表使用者會因此更信任 Windows、Office 或 GitHub 裡的 AI 功能。信任要一個功能一個功能地贏回來。」
結論: 多了一個選項,重點在生態系
對 LLM 應用開發者來說,MAI 這次發布的意義不在於「又多了一個跟 Sonnet 4.6 差不多的模型」,而在於:
- Microsoft 生態系有了自己的模型: 如果你的產品建在 Azure / GitHub / M365 上,現在有原生整合度更高的選項。
- Frontier Tuning 提供了深度客製化的新路線: 比一般的微調 API 更深入,但也更重(需要建立訓練環境、提供回饋)。適合有明確領域需求且願意投入的團隊。
- 強化了「模型可替換、評估集是護城河」的觀點: 不管你用不用 MAI,Satya 講的「私有 eval + multi-model harness」是值得認真思考的架構方向。
最後想提一點: Microsoft MAI 和 Meta MSL 不約而同都選擇了「從頭練、不蒸餾」的路線。這條路更慢、更貴、更容易失敗,但兩家都認為只有這樣才能建立真正可持續往上爬的能力,而不是靠蒸餾別人的輸出拿到一個無法超越來源模型的天花板。在 AI 快速迭代的時代,願意花兩年從零開始是令人敬佩的。
對照之下,不是每家大公司都做同樣的選擇。回顧今年以來:Apple 今年一月宣布下一代基礎模型將改用 Google Gemini,等於放棄自己練前沿模型。Amazon 的 Nova 系列持續發展,但定位偏向性價比而非前沿智能(Neowin 評 Nova Premier 為「最先進但令人失望」,Nova 2 的評測對標是輕量級模型而非頂尖模型),Amazon 真正的重心在自研晶片 Trainium 和 Bedrock 平台(模型 API 服務),大手筆投資 Anthropic,也把 OpenAI 模型上架到 Bedrock。xAI 併入 SpaceX 後重心轉向基礎設施,把資料中心的算力分別租給 Anthropic 和 Google,光租算力就穩賺,不用自己承擔模型研發的風險。
小編整理了三大雲平台目前的前沿模型支援現況:
| 雲平台 | 自家模型 | 第三方前沿模型 | 開源模型 |
|---|---|---|---|
| Gemini Enterprise Agent Platform (原 Vertex AI) | Gemini | Claude | Llama、Mistral、DeepSeek、Qwen 三家皆有上架 |
| Microsoft Foundry (原 Azure AI Studio) | MAI | OpenAI、Claude | |
| Amazon Bedrock | Nova | Claude、OpenAI |
📎 資料來源:
- Building a Hill-Climbing Machine (Microsoft AI Blog)
- MAI-Thinking-1 Technical Report (109 頁完整論文)
- Satya Nadella on Latent Space (Build 2026 訪談)
- Mustafa Suleyman 公告推文