香港商報
-- 天氣
小米刷新全球推理最快速度

小米刷新全球推理最快速度

責任編輯:韓濠昕 2026-06-09 15:29:53原創 來源:香港商報網

以智能手機、智能硬件和IoT平台為核心的消費電子及智能製造公司小米集團(01810)於2026年6月8日晚上推出 Xiaomi MiMo-V2.5-Pro-UltraSpeed 模式,成為全球首個在通用 GPU上推理速度突破 1000 tokens/s 的萬億參數的AI模型,刷新旗艦模型全球推理最快速度。

由即日起至 6月23日,MiMo-V2-Pro-UltraSpeed 模式將以申請制形式限時開放,通過申請的用戶可透過 API 體驗該服務。MiMo-V2.5-Pro-UltraSpeed API 亦同步上線,採用限時體驗價,定價為 MiMo-V2.5-Pro 的 3 倍,同時提供約10倍的輸出速度提升;目前僅支援 API 體驗,不支援 Token Plan。

突破 打破「快、強、通用」不可能三角

MiMo-V2.5-Pro-UltraSpeed 透過對模型推理系統進行全鏈路工程優化,在不降低模型能力的前提下,首次將推理速度提升至1000 tokens/s,並無需訂製晶片,只需使用通用 GPU 即可實現。這項突破不但打破業界長期以來「快、強、通用 GPU 無法兼得」的限制,亦顯示小米 MiMo 大模型在推理工程能力方面已躋身全球第一梯隊。

Xiaomi MiMo-V2.5-Pro-UltraSpeed 的推出,標誌着旗艦大模型正式邁向更高推理效率階段,亦為未來更廣泛的即時應用場景提供更多可能。

AI大模型拓寬 Agent 生產力邊界

作為全球首個在通用 GPU 上突破 1000 tokens/s 的萬億參數AI模型,Xiaomi MiMo-V2.5-Pro-UltraSpeed 的突破不僅在於回應更快,更重要的是首次令萬億參數模型真正參與複雜的即時任務場景。

過去,大模型最常見的應用場景是聊天問答。隨着 Agent 概念興起,大模型的角色正由「回答問題」轉向「完成任務」。無論是開發應用程式、生成代碼,抑或多個 Agent 協同處理複雜工作流程,背後都需要模型持續進行大量推理調用。

限制相關場景普及的關鍵,並非模型能力不足,而是推理延遲過高。當一項任務需要調用數十次甚至上百次模型推理時,每輪幾秒的等待都會不斷累積,最終影響整體回應及執行效率。

隨着 MiMo-V2.5-Pro-UltraSpeed 將推理速度提升至 1000 tokens/s,萬億參數大模型已具備接近即時完成複雜任務的能力,智能編程、Agent 協同及高頻量化交易等場景的應用門檻亦正逐步降低。

小米 AI 進展遠超預期

值得一提的是,自4月底以來,小米 AI 於模型能力、推理成本及推理效率三個維度接連取得突破:4月23日,MiMo-V2.5-Pro 在全球權威大模型測評平台 Artificial Analysis 上,獲得綜合智能指數與 Agent 指數全球開源模型並列第一;5月27日,Xiaomi MiMo-V2.5 系列模型 API 因技術優化宣布最高降價 99%,並同步調整 Token Plan 計費體系。6月8日,MiMo-V2.5-Pro-UltraSpeed 以 1000 tokens/s 創下萬億參數旗艦模型推理速度新紀錄。(記者 韓商)

責任編輯:韓濠昕 小米刷新全球推理最快速度
香港商報PDF

友情鏈接

承印人、出版人:香港商報有限公司 地址:香港九龍觀塘道332號香港商報大廈 香港商報有限公司版權所有,未經授權,不得複製或轉載。 Copyright © All Rights Reserved
聯絡我們

電話:(香港)852-2564 0768

(深圳)86-755-83518792 83518734 83518291

地址:香港九龍觀塘道332號香港商報大廈