物流ラベルOCR精度比較｜従来OCR vs VLMのベンチマーク実測データ

Q: VLM OCRは従来OCRより常に精度が高いのですか？

A. 条件次第です。正規フォーマットの印字ラベルで照明・角度が安定している場合、従来テンプレートOCRでも99%以上の正答率が出ます。VLMが真価を発揮するのは、フォーマット変動・汚れ・角度変化・多言語混在など、テンプレート定義が困難な条件です。

Q: ベンチマークの画像枚数はどれくらいですか？

A. 条件あたり200枚以上、合計1,000枚超のサンプルで計測しています。物流現場から収集した実画像に加え、意図的に劣化条件を付与した画像を混在させて評価しています。

Q: VLM OCRの推論コストは従来OCRに比べてどのくらい高いですか？

A. 1回の推論あたりのクラウドAPI費用は従来OCRより高くなります。ただしエッジ推論に移行すれば通信コストはゼロに近づき、テンプレート更新の人件費を含めたTCOでは逆転するケースが多いです。

Q: どの段階から費用が発生しますか？

A. 画像サンプル検証・ヒアリング・PoC設計書作成までは無料です。PoC実機導入から費用が発生し、PoC→本番展開の見積もりはPoC設計書段階で明示します。

― 01 / 精度比較の必要性

なぜ精度比較が必要か：カタログスペック vs 現場実測の乖離

OCR製品を選定する際、多くの現場担当者がまず確認するのがカタログ上の「文字認識率99.x%」という数値です。しかしこの数値は、整った印字品質のサンプル画像・最適な照明条件・正対した角度で計測されたものであり、実際の物流現場とは条件が大きく異なります。

物流現場で発生する「読み取り困難条件」は、大きく分けて以下の5つに分類できます。

ラベルの汚れ・かすれ：搬送中の摩擦・結露・油汚れでインクが劣化し、コントラストが低下する
撮像角度のばらつき：ケースの傾き・ラベルの貼付位置のずれで、カメラに対する射影変換が発生する
フォント・レイアウトの変動：荷主ごとにラベルフォーマットが異なり、文字の書体・サイズ・配置が統一されていない
多言語混在：海外発の貨物では英語・中国語・韓国語・タイ語などが1枚のラベルに混在する
照明条件の変動：時間帯・季節・設置位置による環境光の変化、搬送速度と露光時間の制約

カタログスペックはこれらの条件をほぼ排除した環境で計測されています。そのため、実際の物流現場にOCRを導入すると、カタログ値から10〜30ポイント精度が落ちるケースが珍しくありません。導入後に「思ったほど読めない」という事態を防ぐには、現場条件を再現した独自ベンチマークが必要です。

本記事では、Nsightが実際の物流現場から収集した画像を用いて実施した、従来テンプレートOCRとVLM OCRの精度比較結果を公開します。比較は「精度」だけでなく、「セットアップ工数」「新フォーマット追加コスト」「運用負荷」まで含めた多軸評価で行っています。

― 02 / テスト条件設計

テスト条件の設計：ラベル種類・フォント・汚れ・角度・照明

精度比較の信頼性は、テスト条件の設計品質で決まります。今回のベンチマークでは、以下の方針でテスト画像セットを構築しました。

画像収集の方針

物流現場3拠点（常温倉庫・冷蔵倉庫・クロスドック施設）から実画像を収集し、各条件につき200枚以上、合計1,000枚超のサンプルを用意しました。「きれいに読める画像」だけでなく、現場で実際に発生する劣化画像を意図的に含めることで、カタログ環境との差分を定量化しています。

5つのテスト条件

ベンチマークは以下の5条件を独立変数として設定し、各条件で従来OCRとVLM OCRの正答率を計測しました。

条件	具体的な変動内容	典型的な発生現場
A. 標準条件	正規フォーマット、清浄なラベル、正対角度、安定照明	自動化済み倉庫の定型入荷ライン
B. 汚れ・かすれ	インクかすれ、結露跡、油汚れ、テープ重なり	冷蔵倉庫、屋外荷受けエリア
C. 角度変動	ケース傾斜10〜30度、ラベル貼付位置のばらつき	手積みパレット、不整列コンベア
D. フォント・レイアウト変動	荷主別の5種以上のフォーマット混在	3PL倉庫、マルチクライアント拠点
E. 照明変動	環境光の明暗差、搬送速度変化による露光量の変動	季節・時間帯で照度が変わる半屋外ライン

正答率の定義

本ベンチマークでは、「正答」を対象フィールド（伝票番号・品番・ロット番号など）の全文字が一致と定義しています。1文字でも誤りがあれば「誤答」として計上します。部分一致率ではなく完全一致率を採用する理由は、物流現場では伝票番号の1桁の誤りが誤出荷・在庫不一致に直結するためです。

― 03 / 従来OCRの精度特性

従来テンプレートOCRの精度特性と限界

従来のテンプレートOCRとは、ラベル上の読み取り対象領域（ROI）をあらかじめ座標指定し、その領域に対して文字認識エンジンを適用する方式です。商用製品としてはキーエンスのXGシリーズ、コグネックスのVisionPro OCR、オムロンのFHシリーズなどが代表的です。

強み：安定条件下での高精度

テンプレートOCRの最大の強みは、条件が安定している環境での高い正答率と処理速度です。標準条件（条件A）では99%以上の正答率を安定して達成できます。処理速度も数十ミリ秒オーダーと高速で、ライン速度への追従性に問題はありません。

また、読み取り結果の再現性が高く、同一条件であれば毎回同じ結果を返します。この「決定論的な動作」は、品質管理システムとの連携において信頼性の高い特性です。

限界：条件変動に対する脆弱性

一方で、テンプレートOCRには構造的な限界があります。

ROI座標のずれに弱い：ラベル貼付位置が数ミリずれただけで、読み取り領域から文字がはみ出し、認識不能になる
フォント変更への対応に再設定が必要：荷主がラベルプリンタを変更しただけで、文字辞書の再登録が必要になることがある
汚れ・かすれに対する前処理の限界：二値化閾値の調整やフィルタ処理で対応できる範囲には物理的な限界がある
多言語への対応コスト：言語ごとに文字辞書を追加し、切り替えロジックを実装する必要がある

以下は、条件別の正答率実測値です。

条件	従来テンプレートOCR正答率	主な失敗パターン
A. 標準条件	99.2%	極小フォントの一部で誤認識
B. 汚れ・かすれ	78.4%	コントラスト低下で二値化失敗、文字欠損
C. 角度変動	72.1%	ROI座標ずれ、射影歪みによる文字変形
D. フォント・レイアウト変動	61.3%	未登録フォントの誤認識、ROI外への文字逸脱
E. 照明変動	83.7%	ハレーション・影による局所的なコントラスト消失

標準条件では99.2%という高い数値を示す一方、フォーマット変動が加わると61.3%まで急落しています。これが「カタログスペック vs 現場実測」の乖離の正体です。特に3PL倉庫のように複数荷主のラベルが混在する環境では、条件Dの影響が支配的になります。

― 04 / VLM OCRの精度特性

VLM OCRの精度特性：フォーマット非依存・文脈理解・多言語対応

VLM（Vision Language Model）OCRは、画像認識と自然言語処理を統合したモデルで、テンプレート定義なしでラベル上の文字情報を読み取る方式です。従来OCRが「どこに何があるか」を事前に教える必要があったのに対し、VLMは画像全体を解釈し、文脈から必要な情報を推論します。

フォーマット非依存の読み取り

VLM OCRの最大の特長は、ラベルのフォーマットを事前に定義する必要がないことです。「この画像から伝票番号を抽出してください」という自然言語のプロンプトを与えるだけで、ラベル上のどこに伝票番号が記載されていても、その文脈から該当フィールドを特定し、文字を読み取ります。

この特性は、荷主変更やラベルプリンタの世代交代が頻繁に発生する物流現場において、再設定コストをほぼゼロにできるという運用上の大きなメリットをもたらします。

文脈理解による補完能力

従来OCRでは、インクかすれで文字の一部が欠損すると、その文字単体での認識が失敗します。一方VLMは、周囲の文字列・ラベル全体のレイアウト・フィールド名との関係性から、欠損した文字を文脈的に補完できます。

たとえば「品番: ABC-12_45」の「_」部分が汚れで読めない場合、前後の文字パターンとフィールドの意味から「3」である可能性が高いと推論できます。ただし、この補完能力は万能ではなく、フォント種類やラベルの情報密度によって精度が変動します。

多言語対応

VLMは学習データに多言語テキストが含まれているため、英語・日本語・中国語・韓国語・タイ語などが混在するラベルでも、言語切替の設定なしに読み取りが可能です。従来OCRでは言語ごとの辞書切替が必要だった処理が、VLMでは自動的に処理されます。

処理速度のトレードオフ

VLM OCRの処理時間は、エッジデバイスで数百ミリ秒〜数秒オーダーです。従来OCRの数十ミリ秒と比較すると1桁以上遅くなります。ただし、物流ラベルの読み取りはケース1個あたり1〜3秒のタクトが許容される用途が多いため、実運用上のボトルネックにはなりにくい領域です。外観検査（0.2秒/個以下）のような高速タクトが要求される用途とは、明確に使い分ける必要があります。

― 05 / ベンチマーク結果

ベンチマーク結果比較：5条件 x 2手法の正答率テーブル

以下が、5条件それぞれにおける従来テンプレートOCRとVLM OCRの正答率（完全一致率）の比較結果です。

テスト条件	従来テンプレートOCR	VLM OCR	差分
A. 標準条件	99.2%	97.8%	-1.4pt
B. 汚れ・かすれ	78.4%	93.6%	+15.2pt
C. 角度変動	72.1%	91.2%	+19.1pt
D. フォント・レイアウト変動	61.3%	94.7%	+33.4pt
E. 照明変動	83.7%	92.4%	+8.7pt

結果の読み方

条件Aの標準環境では、従来OCRがVLMを1.4ポイント上回っています。これは予想通りの結果で、安定した条件ではテンプレートOCRの精度と速度に明確なアドバンテージがあります。

しかし条件B〜Eの劣化条件では、VLM OCRが全条件で従来OCRを上回り、特に条件D（フォーマット変動）では33.4ポイントという大差がつきました。これは、テンプレートOCRが未登録フォーマットに対して構造的に対応できないことに起因します。

複合条件での差はさらに拡大する

実際の物流現場では、これらの条件が単独で発生することは稀です。「フォーマットが違うラベルが、汚れた状態で、斜めに貼られている」という複合条件が日常的に発生します。

複合条件での追加テスト（B+C+D条件の同時適用、200枚）では、従来OCRの正答率が41.8%まで低下したのに対し、VLM OCRは86.3%を維持しました。この44.5ポイントの差が、「導入してみたら読めなかった」という現場の失敗談の背景にある数値的な実態です。

補足：VLM OCRの97.8%（条件A）が99%を切っている主な原因は、極小フォント（6pt以下）の読み取りと、数字の「0」と英字「O」の混同です。これらはプロンプト設計（「数字のみのフィールドです」等の制約付与）で改善可能であり、チューニング後には98.5%以上に向上しています。

― 06 / 精度以外の評価軸

精度だけでは測れない指標：セットアップ工数・追加コスト・運用負荷

OCRシステムの導入判断において、正答率は最も重要な指標の一つですが、それだけでは不十分です。現場で実際に運用し続けるために必要なTCO（Total Cost of Ownership）を左右する3つの運用指標を比較します。

1. 初期セットアップ工数

従来テンプレートOCRでは、ラベルフォーマットごとにROI座標の定義、文字辞書の登録、二値化閾値の調整、検証テストが必要です。1フォーマットあたりの初期設定に2〜5人日を要するのが一般的です。3PL倉庫で荷主が10社あれば、20〜50人日がセットアップだけで消費されます。

VLM OCRの場合、初期セットアップは主にプロンプト設計と閾値調整です。フォーマットごとの個別設定が不要なため、全体で3〜5人日で立ち上げが完了します。フォーマット数が増えてもセットアップ工数はほぼ線形に増加しません。

2. 新フォーマット追加コスト

物流現場では、新規荷主の追加、既存荷主のラベル仕様変更、季節商材のラベル追加などが継続的に発生します。

従来OCRでは、新フォーマットが追加されるたびにテンプレート再定義 → テスト → 本番反映のサイクルが必要です。SIベンダーに依頼する場合は1回あたり数万〜十数万円の費用と、1〜2週間のリードタイムが発生します。年間のフォーマット追加が10回発生すれば、年間数十万円〜百万円超のランニングコストになります。

VLM OCRでは、新フォーマットが追加されてもプロンプトの変更は原則不要です。フォーマット非依存で読み取るため、新フォーマットの追加コストは実質ゼロです。ただし、特殊なレイアウト（極端に情報密度が高いラベルなど）ではプロンプト調整が必要になるケースがあり、その場合も半日〜1日程度の作業で対応できます。

3. 運用時のメンテナンス負荷

従来OCRは、照明の経年劣化・レンズの汚れ・ラベル印字品質の季節変動などに対して、定期的な閾値再調整が必要です。「先月まで読めていたのに今月から読めなくなった」という問い合わせが発生するたびに、現場訪問とパラメータ調整が発生します。

VLM OCRは、画像全体を解釈するため、軽微な条件変動に対しては自動的に吸収します。ただし、VLMモデル自体のバージョンアップに伴う挙動変化のモニタリングは必要です。定期的な精度モニタリングと、必要に応じたプロンプト微調整が運用タスクになります。

運用指標	従来テンプレートOCR	VLM OCR
初期セットアップ（10フォーマット）	20〜50人日	3〜5人日
新フォーマット追加（1回）	2〜5人日 + 外注費	0〜0.5人日
年間メンテナンス工数	月1〜2回の調整訪問	月次精度レポート確認
フォーマット数増加時のスケーリング	線形にコスト増加	ほぼ一定

― 07 / 撮像・照明チューニング

現場で精度を最大化するための撮像・照明チューニング

VLM OCRであっても、入力画像の品質が低ければ精度は下がります。OCR手法に関わらず、「良い画像を撮る」ことが精度の上限を決めるという原則は変わりません。ここでは、物流ラベルOCRの精度を最大化するための撮像・照明設計のポイントを整理します。

照明設計の3原則

拡散光で影を消す：ラベル表面の凸凹や段ボールのフルート（波状構造）が作る影は、文字のコントラストを局所的に低下させます。バー照明やドーム照明で拡散光を作り、影の発生を抑制します。
ハレーション対策：光沢のあるラベル素材（PP、PET）は正反射でハレーションを起こしやすいため、照明角度を調整して正反射がカメラに入らない配置にします。偏光フィルタの併用も有効です。
環境光の遮断：半屋外や窓際のラインでは、時間帯によって環境光が大きく変動します。撮像エリアを遮光カバーで覆い、制御された照明のみで撮像する構成が基本です。

カメラ選定と解像度設計

ラベルOCRに必要な解像度は、読み取り対象の最小文字サイズから逆算します。一般的な目安として、1文字あたり最低10ピクセル以上を確保できる解像度が必要です。

搬送速度が速い（毎秒2m以上）ラインでは、ラインカメラと液体レンズの組み合わせが有効です。ケースの高さ違いに対してもピント追従でき、長辺方向の解像度を事実上無制限に確保できます。

画像前処理のチューニング

VLM OCRに画像を入力する前段で、以下の前処理を適用することで正答率を2〜5ポイント改善できるケースがあります。

コントラスト正規化：照明むらによる明暗差を補正し、画像全体のコントラストを均一化する
ノイズ除去：センサノイズや圧縮アーティファクトを低減する（ただし過度な平滑化は文字エッジをぼかすため注意）
傾き補正：ラベルの傾きを検出し、水平に補正する前処理を入れることで、VLMの読み取り精度が向上する場合がある

現場のコツ：前処理パラメータは現場ごとに最適値が異なります。PoC段階で100枚程度のサンプル画像を使ってパラメータサーチを行い、最適な前処理パイプラインを決定するのが効率的です。前処理の過不足は精度に直結するため、元キーエンス画像処理部門の撮像設計ノウハウが直接活きる領域です。

精度モニタリングの仕組み

導入後の精度を維持するには、継続的なモニタリングが欠かせません。推奨するモニタリング体制は以下の通りです。

日次ダッシュボード：フィールドごとの正答率・NGカウント・NG画像サムプルを自動集計
週次トレンド分析：精度の時系列変化を追い、照明劣化やラベル仕様変更の兆候を早期に検知
月次精度レポート：運用改善のPDCAサイクルを回すためのレポートを自動生成

これらのモニタリング機能は、Nsightの物流AI-OCRソリューションに標準で組み込まれています。

― 09 / FAQ

よくある質問

VLM OCRは従来OCRより常に精度が高いのですか？

条件次第です。正規フォーマットの印字ラベルで照明・角度が安定している場合、従来テンプレートOCRでも99%以上の正答率が出ます。VLMが真価を発揮するのは、フォーマット変動・汚れ・角度変化・多言語混在など、テンプレート定義が困難な条件です。

ベンチマークの画像枚数はどれくらいですか？

条件あたり200枚以上、合計1,000枚超のサンプルで計測しています。物流現場から収集した実画像に加え、意図的に劣化条件を付与した画像を混在させて評価しています。

VLM OCRの推論コストは従来OCRに比べてどのくらい高いですか？

1回の推論あたりのクラウドAPI費用は従来OCRより高くなります。ただしエッジ推論に移行すれば通信コストはゼロに近づき、テンプレート更新の人件費を含めたTCOでは逆転するケースが多いです。

どの段階から費用が発生しますか？

画像サンプル検証・ヒアリング・PoC設計書作成までは無料です。PoC実機導入から費用が発生し、PoC→本番展開の見積もりはPoC設計書段階で明示します。

物流ラベルOCR精度比較：
従来OCR vs VLMの
ベンチマーク実測データ