Microsoft AI: 從零練起的 MAI 模型和平台佈局

你可能知道 Microsoft 跟 OpenAI 合作很深，但比較少人注意到: Microsoft 其實在兩年前就默默開始自己練模型了。

MAI (Microsoft AI) 是 2024 年 Microsoft 收購 DeepMind 共同創辦人 Mustafa Suleyman 的 Inflection AI 後成立的內部前沿模型實驗室。定位上跟 OpenAI 的合作是並行的: OpenAI 繼續提供 GPT 系列，MAI 則讓 Microsoft 擁有完全自主掌控的模型線。

你可能會問: Microsoft 不是已經有 Phi 系列了嗎? Phi 是 Microsoft Research 做的開源小模型(最新的 Phi-4-reasoning 是 15B 參數)，定位在研究貢獻和邊緣裝置部署。MAI 則完全不同: 閉源、前沿規模(1T 參數)、目標是跟 OpenAI、Anthropic、Google DeepMind 同級。兩個是不同團隊、不同目標的產品線。小編之前也沒特別關注這個團隊，直到六月初的 Build 2026 上他們一口氣端出七個模型，才發現值得關注一下。

這七個模型涵蓋推理、程式碼、圖片生成、語音合成和語音辨識，從組建團隊算起只花了約兩年。對做 LLM 應用的開發者來說，多了一個選擇，但更值得關注的是背後的平台策略和技術決策思路。

七個模型，哪些跟你有關

模型	定位	狀態	取用方式
MAI-Thinking-1	旗艦推理，35B 活躍參數的 MoE 架構，256K context	內部預覽	Microsoft Foundry，即將開放公開預覽
MAI-Code-1-Flash	5B 輕量程式碼模型	已上線	VS Code GitHub Copilot
MAI-Image-2.5	圖片生成/編輯	已上線	Foundry、OpenRouter API、PowerPoint
MAI-Image-2.5-Flash	上者的低成本版	已上線	同上
MAI-Transcribe-1.5	語音轉文字，支援 43 語言	已上線	Foundry、Teams
MAI-Voice-2	文字轉語音，可用少量錄音複製聲紋	已上線	Foundry、VS Code

部分模型也上了 OpenRouter、Fireworks、Baseten 等第三方推理平台。目前沒有開源權重的計畫，走的是 API 和平台模式。

Image 2.5 定價參考(每百萬 token): 文字輸入 $5 / 圖片輸入 $8 / 圖片輸出 $47。Flash 版約便宜 3-4 倍。

跟現有選擇比如何

先看 MAI-Thinking-1 的 benchmark 數字:

Benchmark	MAI-Thinking-1	Sonnet 4.6	Opus 4.6
AIME 2025 (數學推理)	97.0%	95.6%	99.8%
SWE-Bench Pro (程式碼)	52.8%	–	53.4%
SWE-Bench Verified (程式碼)	73.5%	79.6%	80.8%
GPQA Diamond (科學問答)	84.2%	89.9%	91.3%
IF Bench (指令遵循)	69	86	–

人類盲測對比 Sonnet 4.6: 49% 贏、45% 輸、6% 平手。對比 Opus 4.6: 43% 贏、52% 輸。

論文自己的定位很克制: 「不是領域最強，但在廣泛任務上表現穩定一致。」

社群也注意到幾點:

比較對象的選擇: Anthropic 在 Build 2026 前幾天才發布了 Opus 4.8，但 MAI 選擇跟較早的 Sonnet 4.6 做比較。
數字尚未獨立驗證: 截至目前，第三方評測聚合器上還沒有 MAI-Thinking-1 的獨立測試結果。
明顯弱項: 指令遵循能力和終端操作(Terminal-Bench)跟競品差距不小，如果你的應用重度依賴複雜指令，這點要留意。

小編的判斷: 作為第一個版本，MAI-Thinking-1 大致在 Sonnet 4.6 同級。如果你已經在用 Claude 或 GPT，目前沒有強烈理由切換。但如果你本來就深度使用 Microsoft 生態系(Azure、GitHub、M365)，整合度是加分項。

MAI-Code-1-Flash: Copilot 裡的新選項

對每天在寫程式的人來說，MAI-Code-1-Flash 可能是最直接相關的:

只有 5B 參數，但 SWE-Bench Pro 拿到 51.2% (Claude Haiku 4.5 是 35.2%)
解決困難問題時，token 用量比同級模型少 60%
有「自適應回應長度」機制: 簡單問題快速回答，複雜問題才展開長思考
直接在 VS Code 的 Copilot 模型選擇器裡選用，不需額外設定

這個模型是直接用 GitHub Copilot 的正式環境訓練的，不是單純對 benchmark 最佳化。對日常寫程式來說，回應速度和 token 效率可能比 benchmark 分數更重要。

零蒸餾: 對開發者意味著什麼

MAI-Thinking-1 有一個特別的設計選擇: 完全不使用其他模型的蒸餾(也就是不拿 GPT、Claude 等模型的輸出當訓練資料)，推理能力純粹靠自己的強化學習訓練學出來。也不使用合成資料，30T tokens 預訓練資料全部來自人類產出的內容。

這對下游開發者有什麼意義?

🔹 企業法務面: 如同 @eliebakouch 的分析，乾淨的資料來源讓企業法務更容易簽字放行。如果你的客戶是大企業或受監管產業，「這個模型沒有用到競爭對手的輸出當訓練資料」是一個可以寫進合約裡的保證。

🔹 供應鏈獨立性: 不依賴其他實驗室的模型輸出，意味著 Microsoft 的模型改進不會被上游的 API 政策變動影響。對長期使用 Microsoft 生態系的開發者來說，這是穩定性的保證。

不過社群對「乾淨資料」的說法也有質疑。Simon Willison 指出訓練資料包含 1.2 兆頁公開網頁爬蟲和 GitHub 程式碼。Hacker News 上的討論認為，GitHub 改了使用條款允許用使用者資料訓練 AI，這大概就是所謂「合規授權資料」的意思，跟其他實驗室的做法沒有本質差異。所以「乾淨」更多是指「沒用別家模型的輸出」，不是「完全沒有版權爭議」。

Frontier Tuning: 讓模型變成你的

這次發布中對開發者最有戰略意義的可能是 Frontier Tuning。核心概念:

🔹 強化學習環境(RLE): 你建立自己的訓練環境，讓 MAI 模型在你的工作流程中持續學習。不只是 prompt 調整或 LoRA 微調，是真的在你的場景裡做強化學習。

🔹 實際效果: Microsoft 內部用 RLE 針對 Excel 的 agent 功能調校，結果跟 GPT-5.4 同等水準但效率高 10 倍。幫 McKinsey 調校後，品質勝過 GPT-5.5，成本低 10 倍。

🔹 商業定位: Mustafa 描述為「從租用 AI 到掌控 AI」。調校後的模型權重是你的，別人拿不到。

不過 Hacker News 上也有人吐槽: 實際體驗是一個資料標註介面，需要你提供指令和回饋，每步之間要等很久。離「模型自動觀察你的工作流然後學會」還有段距離。

Satya 的觀點: 對架構決策的啟發

Satya 在 Latent Space 訪談中分享的幾個觀點，對做 LLM 應用架構決策的人蠻有參考價值:

🔹 模型只是起點，harness 才是產品: 每個 Microsoft 產品(GitHub Copilot、Defender)現在都是 multi-model harness，定義了「模型 + 資料 + 工具」的迴圈。上下文層的準備工作是過去兩年最難學到的一課。

🔹 私有評估集是最大的護城河: 如果你有自己的 eval，能在不同模型間切換並持續進步，你就掌握主動權。如果你的系統綁死一個模型、沒辦法換，你就沒有議價能力。

🔹 Token 資產: 企業累積的執行軌跡(traces)、評估集、上下文是新型態的智慧財產。這個觀點對正在建 AI 產品的團隊很重要: 你的護城河不在於你用哪個模型，而在於你累積了什麼資料和評估能力。

🔹 小模型 + 好的 harness 一樣能有效爬坡: 不一定要用最大最貴的模型。5B 參數的 MAI-Code-1-Flash 在正確的 harness 下表現超越大很多的模型。這呼應了「用小模型 + 好的 harness」可能比「直接用最大模型」更划算的實務經驗。

技術報告: 有趣的訓練細節

這份 109 頁的技術報告是這次發布中讓社群最驚喜的部分。@nrehiew_ 稱它「幾乎可以當成今天 LLM 訓練的教科書」，Latent Space 則評價 MAI 目前是「不錯的第二梯隊新實驗室，在特定領域微調上有明確優勢」。以下挑幾個有意思的點:

架構: 大容量但省推理成本

MAI-Thinking-1 總參數量約 1T，但每次推理只啟動 35B(512 個專家模組裡挑 8 個)。好處是模型知識容量大但推理成本可控。另一個設計是注意力機制大部分層只看附近的文字(局部注意力)，每隔幾層才做一次全文注意力，讓 256K 的長上下文不會讓推理成本暴增。

推理能力是強化學習從零練出來的

跟很多模型先拿 GPT/Claude 的思考過程做蒸餾不同，MAI-Thinking-1 的強化學習起點是一個完全沒見過「思考過程」的基底模型。訓練分成三條路線同時進行: 數學/科學推理、程式碼/工具使用、對話品質與安全性，各自練完再合併成一個模型。

論文展示了數學能力(AIME 2025)從約 20% 爬到 97% 的完整過程，花了約 5000 步。中間有好幾次訓練崩潰，靠的是「自我蒸餾」恢復: 把模型之前產出的好答案收集起來，先微調回穩定狀態，然後繼續強化學習。這種「崩了就從自己的好輸出重來」的做法蠻實務的。

程式碼能力的訓練資料怎麼來的

他們從 GitHub 上 1.02 億個 PR 出發，自動篩選出 26.5 萬個「可以驗證對錯」的程式修改環境(覆蓋 9.4 萬個 repo)，拿來當強化學習的訓練場。模型要實際讀程式碼、改程式碼、跑測試，答對才有獎勵。這個規模和方法對做 coding agent 評估的團隊蠻有參考價值。

小規模實驗的結論不一定能放大

論文揭示了一個有趣的陷阱: 用小模型測試出「資料配比 A 比 B 好」，放大到完整規模後結論可能反轉。實際案例是程式碼比重高的配比在大模型上勝出，但在小模型上反而輸。這對所有在做規模擴展決策或評估設計的人都是個提醒: 小實驗的結論要謹慎外推。

訓練規模

預訓練用了 30T tokens、8,192 張 GB200 GPU。強化學習階段最大的一次訓練動用了 4,864 張 GB300 晶片。

平台佈局: 跟 OpenAI 的關係怎麼了

要理解 MAI 的戰略意義，得先知道背景: 2026 年 4 月，Microsoft 跟 OpenAI 重新談判了合約。OpenAI 解除了只能透過 Azure 發行的限制，可以到其他雲端上架；同時 Microsoft 也正式獲得自行訓練前沿模型的自由。Suleyman 在受訪時說: 「我們大約在六個月前才從 OpenAI 合約中解放出來，可以正式追求超智慧。所以這還是非常早期的階段。」

他也很坦白地定位 MAI 的現況: 「目標是證明我們能成為全球前四的實驗室。目前重要的三家是 Google DeepMind、OpenAI、Anthropic，我們還不算在其中。」

這讓 Azure 上的模型供給格局從「幾乎只有 OpenAI」變成三條路線並存:

路線	適合場景
MAI (自家模型)	企業合規、成本敏感的日常工作負載、Azure 深度整合
OpenAI on Azure	最難的推理任務、需要最強模型能力時
開源/合作夥伴模型 (Llama, Mistral 等)	需要微調、資料駐留要求、特定任務

Digital Applied 的分析認為，Azure 開發者現在應該根據任務需求在三條路線之間挑選，而不是像以前一樣預設什麼都用 OpenAI。

Microsoft Foundry: 開發者實際接觸的界面

對開發者來說，這些模型都是透過 Microsoft Foundry (原 Azure AI Foundry) 來使用的。幾個跟開發者直接相關的功能:

🔹 模型目錄: 超過 12,000 個模型，包含 MAI、OpenAI、Claude、Grok、Llama、Mistral、DeepSeek 等。80% 的 Fortune 500 企業在使用。

🔹 Model Router: 根據工作負載特性、成本目標、延遲要求，自動把每個請求路由到最合適的模型。不需要自己寫 routing 邏輯。

🔹 API 相容性: REST API 走 /openai/v1/ 路由(chat/completions, embeddings, fine-tuning 等)，SDK 支援 Python、.NET、JS/TS、Java。如果你已經在用 OpenAI 格式的 API，切換成本很低。

🔹 Agent Service: 託管式 agent 運行環境，有沙箱隔離、狀態管理、檔案系統存取。

MAIA 200 晶片對開發者的影響: 開發者不會直接碰到這顆晶片(目前沒有 Azure VM 實例可以租)。它是在 Foundry API 背後默默跑的，好處是 MAI 模型的 token 定價會比較低。Mustafa 表示在 MAIA 200 上跑 MAI 模型比 NVIDIA GB200 每美元效能高 30%、每瓦效能高 1.4 倍。

產品整合和垂直領域

🔹 跨產品整合: MAI 模型已經嵌入 GitHub Copilot (Code-1-Flash)、Microsoft Teams (Transcribe)、PowerPoint (Image 2.5)、Dynamics 365 (Voice 2)。這種深度整合是第三方模型做不到的。

🔹 Mayo Clinic 合作: Microsoft 宣布與 Mayo Clinic 合作，用去識別化的臨床資料共同訓練醫療領域的前沿模型。這是 Frontier Tuning 在垂直領域的第一個公開案例。

🔹 Satya 的第三幕定位: 在 Latent Space 訪談中，Satya 把 Microsoft 的演進描述為「作業系統公司 → 雲端公司 → 智慧平台公司」。MAI 模型是這個「第三幕」的基礎設施層。

WindowsForum 的評論則比較冷靜: 「MAI 讓 Microsoft 對自己的 AI 命運有更多掌控權，但不代表使用者會因此更信任 Windows、Office 或 GitHub 裡的 AI 功能。信任要一個功能一個功能地贏回來。」

結論: 多了一個選項，重點在生態系

對 LLM 應用開發者來說，MAI 這次發布的意義不在於「又多了一個跟 Sonnet 4.6 差不多的模型」，而在於:

Microsoft 生態系有了自己的模型: 如果你的產品建在 Azure / GitHub / M365 上，現在有原生整合度更高的選項。
Frontier Tuning 提供了深度客製化的新路線: 比一般的微調 API 更深入，但也更重(需要建立訓練環境、提供回饋)。適合有明確領域需求且願意投入的團隊。
強化了「模型可替換、評估集是護城河」的觀點: 不管你用不用 MAI，Satya 講的「私有 eval + multi-model harness」是值得認真思考的架構方向。

最後想提一點: Microsoft MAI 和 Meta MSL 不約而同都選擇了「從頭練、不蒸餾」的路線。這條路更慢、更貴、更容易失敗，但兩家都認為只有這樣才能建立真正可持續往上爬的能力，而不是靠蒸餾別人的輸出拿到一個無法超越來源模型的天花板。在 AI 快速迭代的時代，願意花兩年從零開始是令人敬佩的。

對照之下，不是每家大公司都做同樣的選擇。回顧今年以來:Apple 今年一月宣布下一代基礎模型將改用 Google Gemini，等於放棄自己練前沿模型。Amazon 的 Nova 系列持續發展，但定位偏向性價比而非前沿智能(Neowin 評 Nova Premier 為「最先進但令人失望」，Nova 2 的評測對標是輕量級模型而非頂尖模型)，Amazon 真正的重心在自研晶片 Trainium 和 Bedrock 平台(模型 API 服務)，大手筆投資 Anthropic，也把 OpenAI 模型上架到 Bedrock。xAI 併入 SpaceX 後重心轉向基礎設施，把資料中心的算力分別租給 Anthropic 和 Google，光租算力就穩賺，不用自己承擔模型研發的風險。

小編整理了三大雲平台目前的前沿模型支援現況:

雲平台	自家模型	第三方前沿模型	開源模型
Gemini Enterprise Agent Platform (原 Vertex AI)	Gemini	Claude	Llama、Mistral、DeepSeek、Qwen 三家皆有上架
Microsoft Foundry (原 Azure AI Studio)	MAI	OpenAI、Claude
Amazon Bedrock	Nova	Claude、OpenAI

📎 資料來源:

Building a Hill-Climbing Machine (Microsoft AI Blog)
MAI-Thinking-1 Technical Report (109 頁完整論文)
Satya Nadella on Latent Space (Build 2026 訪談)
Mustafa Suleyman 公告推文