2026年6月24日 ノード15個 #tech#ai

OCRは、再び研究になった

2026年、文書OCRはなぜ「解決済みのコモディティ」でなくなったのか——小さな専門特化モデル、ページを切らない長距離パース、そして首位の差を映さなくなったベンチマークの天井。

ブリーフ全文

長らくOCRは、片付いたAPI呼び出しとして扱われてきた。だが2026年半ば、三つのリリースが一日のうちに相次いで着地し、これを再び活発な研究へと引き戻した。問いはもう「文字を読めるか」ではない。小さな専門家、汎用VLM、長コンテキストのパーサー——どのモデルの形が、その文書パイプラインに合うのか、なのだ。

三つの技術的な賭け

狙いは同じ、アーキテクチャは分かれる

Mistral OCR 4、PaddleOCRのPP-OCRv6、そしてBaiduのUnlimited-OCR。狙う成果は同じでも、引くレバーは異なる——ホスト型の多言語モデル、3,500万パラメータ未満のオンデバイス一族、そしてKVキャッシュ一定の長距離パーサー。この分岐こそが物語だ。

Mistral OCR 4

ホスト型・多言語・構造を解する

Mistral OCR 4は、広い言語カバーと文書構造の出力を武器に、ホスト型APIとして立つ。OCRを「自分で動かすモデル」ではなく「値のつくサービス」として位置づける一手だ。生の文字精度よりも、利便性と表・レイアウトの忠実度で競う。

open_in_new mistral.ai/news/ocr-4

PP-OCRv6

50言語を、3,500万パラメータ未満で

PaddleOCRのPP-OCRv6は、オンデバイスで動くほど小さく、それでいて50言語をカバーする段階的な一族を届ける。ホスト型VLMへの対抗命題だ——検出と認識を、遠隔呼び出しではなく、組み込める小さな部品として扱う。

open_in_new huggingface.co/blog/PaddlePaddle/pp-ocrv6

Unlimited-OCR

一発で、ページを切らずにパース

BaiduのUnlimited-OCRは、ページを刻む代わりにKVキャッシュを一定に保ち、長い文書を一度のパスでパースする。OCRを長距離のデコード問題として捉え直す——コンテキスト長とメモリが、一回の順伝播で読めるものを形づくる。

open_in_new github.com/baidu/Unlimited-OCR

エンジニアリング深掘り

この収束を、書き起こす

この三つのリリースが、文書OCRをどう捉え直すかをたどる技術記事——小さな専門家 対 汎用VLM、ページを切らない長距離パース、そしてベンチマークが飽和したとき、実際に何を測るべきか。

専門家 対 汎用VLM

トレードオフが、実際に効いてくる場所

文書専用のモデルは、汎用性をコストとレイテンシと引き換えにする。最前線のVLMは何でも読むが、トークン課金が乗り、表で精度が揺らぐ。選択は最高精度の話であることはまれだ——千ページあたりのコストと、その出力が下流のパースにどう噛み合うか、が論点になる。

1ページあたりのコスト

本当の選択軸

汎用VLMはレンダリングしたページ全体にトークン課金する。専門家は、ごく小さな定額を取る。文書規模では、その差は数倍に開く。だから紙の上では劣るはずの専門家が、本番の座をしばしば勝ち取る。

構造の忠実度

表、数式、読み順

素の文字精度は、難所を覆い隠す——表・数式・読み順の再構成だ。テキストだけでなく構造化されたレイアウトを吐くモデルこそ、現実のPDFやスキャンした帳票との接触を生き延びる。

パイプラインのどこに置くか

RAG/文書スタックで、何をどこに

OCRはチャンク化・埋め込み・検索の上流に座る。ここでモデルを選び損ねれば、誤りは下流のすべてへ伝播する。だから配置の判断——事前抽出か、ループ内VLMか——のほうが、ベンチマークの一点よりも重い。

事前抽出 対 ループ内

二つの統合パターン

OCRを最初に一度だけ走らせて、きれいなテキストをインデックスへ流し込むか。あるいはエージェントのループの中で、VLMが必要に応じてページを読むか。事前抽出は安く、キャッシュも効く。ループ内は柔軟だが、クエリのたびにVLMのコストを払う。

誤りの伝播

上流の選択が、なぜ積み重なるのか

OCRの時点で読み違えた表は、誤った埋め込みになり、まずい検索になり、自信たっぷりに間違った答えになる。文書品質を直す最も安い場所は、後からのプロンプト当て木ではなく、抽出のその瞬間だ。

ベンチマークの天井

OmniDocBenchは飽和しつつある

同じスイートで複数のモデルが90超に密集すれば、リーダーボードはもう信号ではなくなる。面白い差は別の場所へ移る——多言語のカバー範囲、表や数式での構造忠実度、そして1ページあたりの金額。飽和した一つのスコアは、そのどれも捉えない。

多言語のカバー範囲

次の、本当の差別化要因

英語文書のスコアが収束するにつれ、言語の幅が分かれ目になる。ラテン文字には強くてもCJK・アラビア・インド系の文字に弱いモデルは、グローバルなカバーを狙って訓練されたモデルとは、別の製品だ。

次は何を測るのか

一つのスコアの、その先へ

開かれた問いは、飽和したリーダーボードを何が置き換えるか、だ——言語別の精度帯、構造レベルのF1、そしてコストで正規化した品質。それらが標準になるまで、モデル選びは順位表の参照ではなく、エンジニアリングの判断であり続ける。

出典・関連リンク