在线免费无毒三级片,国产偷自拍视频区视频

DoNews > 商業(yè) > 小米發(fā)布新模型MiMo-V2-Flash：媲美 DeepSeek-V3.2

小米發(fā)布新模型MiMo-V2-Flash：媲美 DeepSeek-V3.2

楊亮 2025-12-17 10:07:52

169634

分享到

DoNews12月17日消息，據(jù)APPSO報(bào)道，剛剛，小米正式發(fā)布并開源新模型 MiMo-V2-Flash。MiMo-V2-Flash 總參數(shù) 3090 億，活躍參數(shù) 150 億，采用專家混合架構(gòu) (MoE)，性能還能和 DeepSeek-V3.2、Kimi-K2 這些頭部開源模型掰掰手腕。

此外，MiMo-V2-Flash 采用 MIT 開源協(xié)議，基礎(chǔ)版權(quán)重也已經(jīng)在 Hugging Face 上發(fā)布。除去「開源」這一標(biāo)簽，新模型真正的殺手锏在于架構(gòu)設(shè)計(jì)上的激進(jìn)創(chuàng)新，把推理速度拉到了 150 tokens/秒，成本壓到了每百萬 token 輸入 0.1 美元、輸出 0.3 美元，主打一個(gè)超絕性價(jià)比。

根據(jù)官方體驗(yàn)頁面信息，MiMo-V2-Flash 還支持深度思考和聯(lián)網(wǎng)搜索功能，既能對(duì)話聊天，也能在需要實(shí)時(shí)數(shù)據(jù)、最新動(dòng)態(tài)或資料核對(duì)的場(chǎng)景里派上用場(chǎng)。

基準(zhǔn)測(cè)試成績(jī)顯示，AIME 2025 數(shù)學(xué)競(jìng)賽和 GPQA-Diamond 科學(xué)知識(shí)測(cè)試中，MiMo-V2-Flash 都排在開源模型前兩名。編程能力更是亮眼，SWE-bench Verified 得分 73.4%，超越所有開源模型，直逼 GPT-5-High。而這個(gè)測(cè)試是讓 AI 去修真實(shí)世界的軟件 bug，73.4% 的成功率也意味著它能搞定大部分實(shí)際編程問題。

在多語言編程基準(zhǔn)測(cè)試 SWE-Bench Multilingual 里，MiMo-V2-Flash 的解決率為 71.7%。轉(zhuǎn)看智能體任務(wù)，MiMo-V2-Flash 在τ2-Bench 分類得分中，通信類 95.3 分，零售類 79.5 分，航空類 66.0 分，BrowseComp 搜索代理得分 45.4，啟用上下文管理后直接飆到 58.3。

這些數(shù)據(jù)說明，MiMo-V2-Flash 不僅會(huì)寫代碼，還能真正理解復(fù)雜任務(wù)邏輯，執(zhí)行多輪智能體交互。

更重要的是，寫作質(zhì)量也接近頂級(jí)閉源模型，這意味著 MiMo-V2-Flash 不只是個(gè)工具，還能當(dāng)個(gè)靠譜的日常助手。

MiMo-V2-Flash 在保持長(zhǎng)文本性能的同時(shí)，還降低了成本，究其原因，離不開兩項(xiàng)核心技術(shù)創(chuàng)新。

混合滑動(dòng)窗口注意力機(jī)制：傳統(tǒng)大模型處理長(zhǎng)文本時(shí)，全局注意力機(jī)制會(huì)導(dǎo)致計(jì)算量二次爆炸，存儲(chǔ)中間結(jié)果的 KV 緩存也跟著飆升。

小米這次采用了 5 比 1 的激進(jìn)比例，5 層滑動(dòng)窗口注意力搭配 1 層全局注意力交替使用，滑動(dòng)窗口只看 128 個(gè) token。

這種設(shè)計(jì)讓 KV 緩存存儲(chǔ)量直接減少了近 6 倍，但長(zhǎng)文本能力卻沒打折扣，最長(zhǎng)支持 256k 上下文窗口。

且模型即使在這么激進(jìn)的窗口設(shè)置下，照樣能穩(wěn)住長(zhǎng)文本性能。

對(duì)此，羅福莉在社交平臺(tái)上特別指出一個(gè)反直覺的發(fā)現(xiàn)：窗口大小 128 是「最佳甜點(diǎn)值」。實(shí)驗(yàn)證明，盲目擴(kuò)大窗口（如增至 512）反而會(huì)導(dǎo)致性能下降。同時(shí)她強(qiáng)調(diào)，在實(shí)施該機(jī)制時(shí)，sink values 是維持性能的關(guān)鍵，絕不可省略。

另一個(gè)黑科技是輕量級(jí)多 Token 預(yù)測(cè) (MTP)。

傳統(tǒng)模型生成文本時(shí)一次只能吐一個(gè) token，就像打字員一個(gè)字一個(gè)字敲。MiMo-V2-Flash 通過原生集成的 MTP 模塊，能并行預(yù)測(cè)多個(gè) token，一次性猜出接下來好幾個(gè) token。

實(shí)測(cè)平均能接受 2.8 到 3.6 個(gè) token，推理速度直接提升 2 到 2.6 倍，不僅在推理時(shí)管用，訓(xùn)練階段也能加速采樣，減少 GPU 空轉(zhuǎn)，屬于一箭雙雕。

羅福莉提到，在三層 MTP 設(shè)置下，他們觀察到平均接受長(zhǎng)度超過 3，編碼任務(wù)速度提升約 2.5 倍。它有效解決了小批量 On-Policy 強(qiáng)化學(xué)習(xí)中「長(zhǎng)尾樣本」帶來的 GPU 空閑時(shí)間浪費(fèi)問題。

啥叫長(zhǎng)尾樣本？就是那些特別難、特別慢的任務(wù)，拖著其他任務(wù)一起等，GPU 就在那干瞪眼。MTP 把這個(gè)問題給解了，極大提高了效率。

不過羅福莉也坦誠(chéng)，這次因?yàn)闀r(shí)間緊迫沒能把 MTP 完整集成進(jìn) RL 訓(xùn)練循環(huán)，但它與該流程高度契合。小米已經(jīng)把三層 MTP 開源了，方便大家在自己的項(xiàng)目中使用與開發(fā)。

算力只用 1/50，性能如何不打折？

預(yù)訓(xùn)練階段，新模型使用 FP8 混合精度，在 27 萬億 token 數(shù)據(jù)上完成訓(xùn)練，原生支持 32k 序列長(zhǎng)度。

FP8 混合精度是一種壓縮數(shù)值表示的技術(shù)，能在保持精度的同時(shí)減少顯存占用和加速訓(xùn)練。這種訓(xùn)練方式在業(yè)界并不常見，需要對(duì)底層框架進(jìn)行深度優(yōu)化。

而在后訓(xùn)練階段，小米整了個(gè)大活，提出了多教師在線策略蒸餾 (MOPD)。

傳統(tǒng)的監(jiān)督微調(diào)加強(qiáng)化學(xué)習(xí)管線，不僅訓(xùn)練不穩(wěn)定，算力消耗還賊高。MOPD 的思路是讓學(xué)生模型在自己的策略分布上采樣，然后由多個(gè)專家教師在每個(gè) token 位置提供密集的獎(jiǎng)勵(lì)信號(hào)。

MOPD Architecture Diagram

通俗點(diǎn)說就是，學(xué)生模型自己寫作業(yè)，老師在每個(gè)字上都給評(píng)分，不用等寫完整篇才打分。這樣一來，學(xué)生模型能快速從教師那里學(xué)到精髓，而且訓(xùn)練過程穩(wěn)定得多。

最夸張的是效率提升，MOPD 只需要傳統(tǒng)方法 1/50 的算力，就能讓學(xué)生模型達(dá)到教師性能峰值。這意味著小米能用更少的資源，更快地迭代模型。

而且 MOPD 支持靈活接入新教師，學(xué)生模型成長(zhǎng)后還能反過來當(dāng)教師，形成「教與學(xué)」的閉環(huán)自我進(jìn)化。今天的學(xué)生，明天的老師，后天又能教出更強(qiáng)的學(xué)生，套娃玩法屬實(shí)有點(diǎn)東西。

用羅福莉的話來說，他們借鑒 Thinking Machine 的 On-Policy Distillation 方法，將多個(gè)強(qiáng)化學(xué)習(xí)模型進(jìn)行融合，結(jié)果帶來了驚人的效率提升。這為構(gòu)建一個(gè)自我強(qiáng)化循環(huán)系統(tǒng)奠定了基礎(chǔ)，學(xué)生模型可以逐步進(jìn)化，最終成為更強(qiáng)的教師模型。

On-Policy Distillation - Thinking Machines Lab

在智能體強(qiáng)化學(xué)習(xí)擴(kuò)展上，小米 MiMo-V2-Flash 研究團(tuán)隊(duì)基于真實(shí) GitHub issue 構(gòu)建了超過 10 萬個(gè)可驗(yàn)證任務(wù)，自動(dòng)化流水線跑在 Kubernetes 集群上，并發(fā)能開 10000 多個(gè) Pod，環(huán)境部署成功率 70%。

針對(duì)網(wǎng)頁開發(fā)任務(wù)，還專門搞了個(gè)多模態(tài)驗(yàn)證器，通過錄制視頻而非靜態(tài)截圖來驗(yàn)證代碼執(zhí)行結(jié)果，直接減少視覺幻覺，確保功能正確。

對(duì)于開發(fā)者而言，MiMo-V2-Flash 能與 Claude Code、Cursor、Cline 等主流開發(fā)環(huán)境無縫配合，256k 的超長(zhǎng)上下文窗口支持?jǐn)?shù)百輪智能體交互與工具調(diào)用。

256k 是什么概念? 大概相當(dāng)于一本中等篇幅的小說，或者幾十頁技術(shù)文檔。這意味著開發(fā)者可以把 MiMo-V2-Flash 直接融入現(xiàn)有工作流，不需要額外適配，拿來就用。