2026年6月24日 ノード15個 #tech#ai
OCRは、再び研究になった
2026年、文書OCRはなぜ「解決済みのコモディティ」でなくなったのか——小さな専門特化モデル、ページを切らない長距離パース、そして首位の差を映さなくなったベンチマークの天井。
ブリーフ全文
長らくOCRは、片付いたAPI呼び出しとして扱われてきた。だが2026年半ば、三つのリリースが一日のうちに相次いで着地し、これを再び活発な研究へと引き戻した。問いはもう「文字を読めるか」ではない。小さな専門家、汎用VLM、長コンテキストのパーサー——どのモデルの形が、その文書パイプラインに合うのか、なのだ。
三つの技術的な賭け
狙いは同じ、アーキテクチャは分かれる
Mistral OCR 4、PaddleOCRのPP-OCRv6、そしてBaiduのUnlimited-OCR。狙う成果は同じでも、引くレバーは異なる——ホスト型の多言語モデル、3,500万パラメータ未満のオンデバイス一族、そしてKVキャッシュ一定の長距離パーサー。この分岐こそが物語だ。
Mistral OCR 4
ホスト型・多言語・構造を解する
Mistral OCR 4は、広い言語カバーと文書構造の出力を武器に、ホスト型APIとして立つ。OCRを「自分で動かすモデル」ではなく「値のつくサービス」として位置づける一手だ。生の文字精度よりも、利便性と表・レイアウトの忠実度で競う。
open_in_new mistral.ai/news/ocr-4PP-OCRv6
50言語を、3,500万パラメータ未満で
PaddleOCRのPP-OCRv6は、オンデバイスで動くほど小さく、それでいて50言語をカバーする段階的な一族を届ける。ホスト型VLMへの対抗命題だ——検出と認識を、遠隔呼び出しではなく、組み込める小さな部品として扱う。
open_in_new huggingface.co/blog/PaddlePaddle/pp-ocrv6Unlimited-OCR
一発で、ページを切らずにパース
BaiduのUnlimited-OCRは、ページを刻む代わりにKVキャッシュを一定に保ち、長い文書を一度のパスでパースする。OCRを長距離のデコード問題として捉え直す——コンテキスト長とメモリが、一回の順伝播で読めるものを形づくる。
open_in_new github.com/baidu/Unlimited-OCRエンジニアリング深掘り
この収束を、書き起こす
この三つのリリースが、文書OCRをどう捉え直すかをたどる技術記事——小さな専門家 対 汎用VLM、ページを切らない長距離パース、そしてベンチマークが飽和したとき、実際に何を測るべきか。
専門家 対 汎用VLM
トレードオフが、実際に効いてくる場所
文書専用のモデルは、汎用性をコストとレイテンシと引き換えにする。最前線のVLMは何でも読むが、トークン課金が乗り、表で精度が揺らぐ。選択は最高精度の話であることはまれだ——千ページあたりのコストと、その出力が下流のパースにどう噛み合うか、が論点になる。
1ページあたりのコスト
本当の選択軸
汎用VLMはレンダリングしたページ全体にトークン課金する。専門家は、ごく小さな定額を取る。文書規模では、その差は数倍に開く。だから紙の上では劣るはずの専門家が、本番の座をしばしば勝ち取る。
構造の忠実度
表、数式、読み順
素の文字精度は、難所を覆い隠す——表・数式・読み順の再構成だ。テキストだけでなく構造化されたレイアウトを吐くモデルこそ、現実のPDFやスキャンした帳票との接触を生き延びる。
パイプラインのどこに置くか
RAG/文書スタックで、何をどこに
OCRはチャンク化・埋め込み・検索の上流に座る。ここでモデルを選び損ねれば、誤りは下流のすべてへ伝播する。だから配置の判断——事前抽出か、ループ内VLMか——のほうが、ベンチマークの一点よりも重い。
事前抽出 対 ループ内
二つの統合パターン
OCRを最初に一度だけ走らせて、きれいなテキストをインデックスへ流し込むか。あるいはエージェントのループの中で、VLMが必要に応じてページを読むか。事前抽出は安く、キャッシュも効く。ループ内は柔軟だが、クエリのたびにVLMのコストを払う。
誤りの伝播
上流の選択が、なぜ積み重なるのか
OCRの時点で読み違えた表は、誤った埋め込みになり、まずい検索になり、自信たっぷりに間違った答えになる。文書品質を直す最も安い場所は、後からのプロンプト当て木ではなく、抽出のその瞬間だ。
ベンチマークの天井
OmniDocBenchは飽和しつつある
同じスイートで複数のモデルが90超に密集すれば、リーダーボードはもう信号ではなくなる。面白い差は別の場所へ移る——多言語のカバー範囲、表や数式での構造忠実度、そして1ページあたりの金額。飽和した一つのスコアは、そのどれも捉えない。
多言語のカバー範囲
次の、本当の差別化要因
英語文書のスコアが収束するにつれ、言語の幅が分かれ目になる。ラテン文字には強くてもCJK・アラビア・インド系の文字に弱いモデルは、グローバルなカバーを狙って訓練されたモデルとは、別の製品だ。
次は何を測るのか
一つのスコアの、その先へ
開かれた問いは、飽和したリーダーボードを何が置き換えるか、だ——言語別の精度帯、構造レベルのF1、そしてコストで正規化した品質。それらが標準になるまで、モデル選びは順位表の参照ではなく、エンジニアリングの判断であり続ける。