上月初在港掛牌、內地「國產大模型六小虎」之一的智譜(02513),今日(3日)發布並開源GLM-OCR模型,稱聲在文本、公式、表格識別及訊息抽取四大細分領域的表現,優於多款OCR(文字辨識)專項模型,性能接近Gemini-3-Pro。智譜股價曾漲12.64%至253元,最新報241.6元,彈7.6%。
智譜指出,得益於自研 CogViT 視覺編碼器與深度場景優化,GLM-OCR 實現「小尺寸,高精度」。該模型參數量僅0.9B,支持vLLM、SGLang和Ollama部署,在文檔解析榜單OmniDocBench V1.5中以94.6分取得SOTA(先進水平)性能。
在實際應用中,GLM-OCR 能夠精準解析掃描件、PDF、表格及票據,有效解決手寫、印章、豎排及多語言混排難題。價格方面,API輸入輸出同價,每百萬Tokens只需0.2 元人民幣(下同) 。1元即可處理約2,000張A4大小掃描圖片,或200份10頁簡單排版PDF,成本約為傳統OCR方案的十分之一。
智譜表示,未來將持續疊代GLM-OCR,推出更多尺寸版本,並將能力延伸至更多語言和視頻OCR,全面拓寬視覺智能的應用邊界。