2026年6月24日 15 個節點 #tech#ai

OCR,重新成為研究課題

2026 年,文件 OCR 為何不再是一樁已解決的標配——小而專的模型、不切頁的長程解析,以及一道再也分不出高下的基準天花板。

完整簡報

多年來,OCR 一直被當作一樁了結的 API 呼叫。2026 年年中,三個版本在一天之內相繼落地,把它重新拉回活躍研究:問題不再是「我們能否讀出文字」,而是哪一種模型形態——小型專家、通用 VLM,還是長上下文解析器——契合某條特定的文件管線。

三種技術押注

目標相同,架構分岔

Mistral OCR 4、PaddleOCR 的 PP-OCRv6,以及百度的 Unlimited-OCR,瞄準的是同一個結果,卻拉動了不同的槓桿:一個託管的多語言模型、一個參數量不足 3500 萬的端側家族,以及一個 KV 快取恆定的長程解析器。這一分岔,正是故事所在。

Mistral OCR 4

託管、多語言、懂結構

Mistral OCR 4 以寬廣的語言覆蓋與文件結構化輸出立足,作為一個託管 API,把 OCR 定位為一項有價的服務,而非一個你自己執行的模型。它比拼的是便利,以及表格/版面的保真,而非生字元精度。

open_in_new mistral.ai/news/ocr-4

PP-OCRv6

3500 萬參數以下,覆蓋 50 種語言

PaddleOCR 的 PP-OCRv6 推出一個分級家族,小到足以在端側執行,卻仍覆蓋 50 種語言。它是託管 VLM 的反命題:把偵測與辨識做成一個可嵌入的微小元件,而非一次遠端呼叫。

open_in_new huggingface.co/blog/PaddlePaddle/pp-ocrv6

Unlimited-OCR

一次成形、不切頁的解析

百度的 Unlimited-OCR 讓 KV 快取保持恆定,以一趟通行解析長文件,而非把頁面切片。它把 OCR 重構為一個長程解碼問題——上下文長度與顯記憶體,塑造著單次前向能讀下多少。

open_in_new github.com/baidu/Unlimited-OCR

工程深潛

把這場收束寫成文章

一篇技術長文,追溯這三個版本如何重構文件 OCR——小型專家對通用 VLM、不切頁的長程解析,以及當基準飽和之後,究竟該測什麼。

專家模型對通用 VLM

權衡真正發威之處

純文件模型以廣度換取成本與延遲;前沿 VLM 什麼都能讀,卻按 token 計費,且在表格上飄移。這一選擇極少關乎峰值精度——它關乎每千頁的成本,以及輸出如何接入下游解析。

每頁成本

真正的選擇之軸

通用 VLM 按整張算繪頁面的 token 計費;專家模型只收一筆極小的固定費用。在文件規模上,這一差距是數倍量級,這正是為什麼一個紙面上更遜色的專家,往往拿下生產線上的那個名額。

結構保真

表格、公式、閱讀順序

純字元精度掩蓋了真正的難處:重建表格、方程式與閱讀順序。那些吐出結構化版面、而不止於文字的模型,才是能在真實 PDF 與掃描表單的接觸中存活下來的。

管線中的落位

在 RAG/文件堆疊裡,誰該放在哪

OCR 坐落在分塊、嵌入與檢索的上游。在這裡選錯模型,誤差會向下游處處擴散,因此落位的抉擇——事先擷取,還是把 VLM 放進迴路——比單一基準上的一個點更要緊。

事先擷取對迴路之內

兩種整合範式

要麼 OCR 在前端跑一次,把乾淨文字餵進索引;要麼讓 VLM 在智慧體迴路之內,按需讀取頁面。事先擷取更便宜、可快取;迴路之內更靈活,卻要在每次查詢時付出 VLM 的成本。

誤差傳播

上游的抉擇為何會複利累積

OCR 時刻讀錯的一張表,會變成一個錯的嵌入、一次糟糕的檢索,以及一個自信滿滿卻錯誤的答案。修正文件品質最便宜的地方,是在擷取處,而不是事後用提示詞去打補丁。

基準的天花板

OmniDocBench 正在飽和

當多個模型在同一套件上擠在 90 分以上,排行榜便不再是訊號。有意思的差異轉移到別處:多語言覆蓋、表格與公式上的結構保真,以及每頁幾美元——而這些,單一的飽和分數一個都捕捉不到。

多語言覆蓋

下一個真正的差異化要素

隨著英文文件的分數趨於收斂,語言的廣度成為分水嶺。一個強於拉丁文字、卻弱於中日韓、阿拉伯或印度系文字的模型,與一個為全球覆蓋而訓練的模型,是兩種不同的產品。

接下來該測什麼

超越單一分數

懸而未決的問題是:用什麼來取代一個飽和的排行榜——分語言的精度區間、結構層級的 F1,以及以成本歸一化的品質。在這些成為標準之前,選模型仍是一樁工程判斷,而非查一次排名。

OCR,重新成為研究課題

完整簡報

🧩三種技術押注

🌐Mistral OCR 4

📦PP-OCRv6

📜Unlimited-OCR

🔬工程深潛

⚖️專家模型 對 通用 VLM

💸每頁成本

🧾結構保真

🛠️管線中的落位

🔎事先擷取 對 迴路之內

🧵誤差傳播

📊基準的天花板

🗣️多語言覆蓋

❓接下來該測什麼

來源與相關