小米刷新全球推理最快速度

責任編輯：韓濠昕 2026-06-09 15:29:53原創來源：香港商報網

以智能手機、智能硬件和IoT平台為核心的消費電子及智能製造公司小米集團(01810)於2026年6月8日晚上推出 Xiaomi MiMo-V2.5-Pro-UltraSpeed 模式，成為全球首個在通用 GPU上推理速度突破 1000 tokens/s 的萬億參數的AI模型，刷新旗艦模型全球推理最快速度。

由即日起至 6月23日，MiMo-V2-Pro-UltraSpeed 模式將以申請制形式限時開放，通過申請的用戶可透過 API 體驗該服務。MiMo-V2.5-Pro-UltraSpeed API 亦同步上線，採用限時體驗價，定價為 MiMo-V2.5-Pro 的 3 倍，同時提供約10倍的輸出速度提升；目前僅支援 API 體驗，不支援 Token Plan。

突破打破「快、強、通用」不可能三角

MiMo-V2.5-Pro-UltraSpeed 透過對模型推理系統進行全鏈路工程優化，在不降低模型能力的前提下，首次將推理速度提升至1000 tokens/s，並無需訂製晶片，只需使用通用 GPU 即可實現。這項突破不但打破業界長期以來「快、強、通用 GPU 無法兼得」的限制，亦顯示小米 MiMo 大模型在推理工程能力方面已躋身全球第一梯隊。

Xiaomi MiMo-V2.5-Pro-UltraSpeed 的推出，標誌着旗艦大模型正式邁向更高推理效率階段，亦為未來更廣泛的即時應用場景提供更多可能。

AI大模型拓寬 Agent 生產力邊界

作為全球首個在通用 GPU 上突破 1000 tokens/s 的萬億參數AI模型，Xiaomi MiMo-V2.5-Pro-UltraSpeed 的突破不僅在於回應更快，更重要的是首次令萬億參數模型真正參與複雜的即時任務場景。

過去，大模型最常見的應用場景是聊天問答。隨着 Agent 概念興起，大模型的角色正由「回答問題」轉向「完成任務」。無論是開發應用程式、生成代碼，抑或多個 Agent 協同處理複雜工作流程，背後都需要模型持續進行大量推理調用。

限制相關場景普及的關鍵，並非模型能力不足，而是推理延遲過高。當一項任務需要調用數十次甚至上百次模型推理時，每輪幾秒的等待都會不斷累積，最終影響整體回應及執行效率。

隨着 MiMo-V2.5-Pro-UltraSpeed 將推理速度提升至 1000 tokens/s，萬億參數大模型已具備接近即時完成複雜任務的能力，智能編程、Agent 協同及高頻量化交易等場景的應用門檻亦正逐步降低。

小米 AI 進展遠超預期

值得一提的是，自4月底以來，小米 AI 於模型能力、推理成本及推理效率三個維度接連取得突破：4月23日，MiMo-V2.5-Pro 在全球權威大模型測評平台 Artificial Analysis 上，獲得綜合智能指數與 Agent 指數全球開源模型並列第一；5月27日，Xiaomi MiMo-V2.5 系列模型 API 因技術優化宣布最高降價 99%，並同步調整 Token Plan 計費體系。6月8日，MiMo-V2.5-Pro-UltraSpeed 以 1000 tokens/s 創下萬億參數旗艦模型推理速度新紀錄。(記者韓商)

責任編輯：韓濠昕