HOME / BLOG / 物流AI-OCR

物流AI-OCR / 技術解説

段ボール高さ違いのOCR自動化：液体レンズ×ラインカメラ×VLMで解決する物流現場の読み取り壁

監修：嶋野（元キーエンス画像処理部門）読了時間：約8分公開日：2026-04-22

最終更新日：2026-04-22

この記事の結論 段ボール高さ違いの物流現場では、従来の固定焦点OCRは物理的にピントが合わず読み取りが破綻します。液体レンズによるミリ秒単位のピント切替 × ラインカメラの高解像度スキャン × VLMによる学習なしOCRの3段構成で、ケース混流ラインでも1セットのカメラで自動化できます。既存ライン後付け可能、PoC最短2週間。

なぜ従来のOCRは段ボール高さ違いで読めないのか

物流倉庫のラベルOCR自動化を検討した多くの現場が、最初にぶつかるのが「高さ違いのケース混流」問題です。20cmのケースと60cmのケースが同じベルトコンベアを流れ、固定焦点のカメラでは手前のケースと奥のケースでピント位置が全く違ってしまう――。

この問題に対して、従来よく取られてきた解決策は3つでした。

被写界深度の深いレンズを使う：絞り込んで被写界深度を稼ぐと、今度は光量不足で搬送速度に追従できなくなる
複数カメラを高さごとに設置する：初期投資が数倍になり、トリガー同期・画像処理ロジックも複雑化
人手で読み取りを代替する：結局自動化目的が果たせない

どれも根本解決になっておらず、特に中小倉庫では「初期投資が見合わない」という理由でOCR自動化プロジェクト自体が立ち消えになるケースが多くあります。

液体レンズによる「ミリ秒単位のピント切替」

液体レンズは、電圧制御で内部の液体の界面形状を変化させ、数ミリ秒〜十数ミリ秒オーダーで焦点距離を切り替えられる電子制御レンズです。機械的な移動部がないため、高速・高信頼で焦点制御ができます。

物流ラインでの典型的な使い方は、以下のようになります。

ラインに通過センサ（光電スイッチ等）を設置し、ケースが通過する瞬間に高さを測定
測定した高さに応じた電圧をリアルタイムで液体レンズに印加し、ケース上面にピントを合わせる
ピント合わせ完了と同時にラインカメラが撮像を開始

この一連の動作が、ケースの通過速度（毎秒1〜2m）に十分追従できる速度で実行できます。

光学設計の勘所：液体レンズ単体では可動範囲が限られるため、物流現場の高さ幅（例：10cm〜80cm）をカバーするには、液体レンズ前段の固定焦点レンズとの組み合わせが重要です。ここで元キーエンス画像処理部門の光学設計ノウハウが直接効いてきます。

なぜラインカメラとの組み合わせが効くのか

物流ラインのラベルは、ケース上面・側面・前面など様々な位置に貼付され、しかもケースは常に動いています。エリアカメラで瞬間停止させて撮るには、シャッター速度・光量・露光時間の制約が厳しくなります。

ラインカメラは、1ラインずつ連続的に撮像していく方式なので、

ケースが搬送される動きそのものを「スキャン動作」に利用できる
長辺方向の解像度を事実上無制限に確保できる（ケース長さ分だけ撮像ライン数を増やす）
照明と露光のタイミング制御が単純化される

という特長があります。液体レンズによるピント切替と同期させることで、高さ違い × 長尺ラベルという物流特有の条件に最適な撮像系を構成できます。

VLM OCRが「フォント・位置違い」を吸収する

光学側で「撮れる画像」が確保できても、従来のルールベースOCRには次の壁が待っています。

ラベルのフォント・位置・サイズが荷主ごとに全部違う。テンプレート定義では追従しきれない。

従来OCRは「このエリアのこのフォントを読み取る」という事前定義が前提でした。しかし物流現場では、荷主・配送業者・商材ごとにラベル書式が異なり、しかも頻繁に更新されます。設定の都度、SIベンダーに追加費用を払ってテンプレ修正するフローは現実的ではありません。

ここで VLM（Vision Language Model）が登場します。VLMは画像と言語モデルを統合したAIで、学習なしで「ラベルのどこに何が書いてあるか」を推論できます。具体的には、

「伝票番号はどこに書いてありますか？」「ロット番号を抽出してください」といった自然言語の指示で情報を取り出せる
フォントの種類・ラベルの貼付位置・ケースの向きが変わっても、文脈から意味を理解して読める
手書き・多言語・かすれ・汚れにも、従来OCRより大幅に強い

VLMの推論レイテンシは外観検査タスク（0.2秒/個のラインスピード）には重すぎる場合がありますが、物流OCRは秒オーダーのタクトで処理できれば十分な用途が多いため、実運用に載せやすい領域です。

3段構成のシステム全体像

液体レンズ × ラインカメラ × VLM OCRを組み合わせた全体構成は、以下のようになります。

レイヤー	役割	代表的な構成要素
光学・撮像	ケース高さに追従してピントを合わせ、高解像度で撮像	液体レンズ、ラインカメラ、高演色LED照明、通過センサ
AI推論	ラベル領域検出＋文字認識＋意味理解	VLM（Vision Language Model）、エッジ推論ボックス
データ連携	読み取り結果をWMSや帳票システムへ送信	APIゲートウェイ、中継サーバー、PLC/MES連携

WMS連携までの実装ステップ

OCR精度が高くても、WMS連携までワンストップで設計しないと運用に乗りません。Nsightがよく採用するWMS連携パターンは3つです。

API直結型：ZetaWMS・SLIMS等のAPI公開WMSには、OCR結果をREST API経由で直接POST
中継サーバー型：既存WMSがAPIを持たない場合は、CSV出力・DB更新を中継サーバー経由で実施
PLC/MES経由型：製造連携が強い倉庫では、PLC信号経由で既存の指示系と結合

既存WMSを変更せず、読み取り結果を現行フローに「注入する」形で導入するのが基本方針です。

既存ラインへの後付け手順（最短2週間 PoC）

Week 1：現場調査＋サンプル画像検証

現場でケースの種類・高さレンジ・ラベル貼付位置・搬送速度を実測。サンプル画像を頂戴してNsightの実エンジンで読み取り可能性を評価し、PoC設計書を作成します。

Week 2：機器仮設置＋PoC運用開始

現場に液体レンズ＋ラインカメラを仮設置し、実ケースでの読み取りテストを開始。WMS連携のテストデータ送信まで含めて、2週間以内に「現場で動く状態」を作ります。

Week 3以降：PoC → 本番展開

精度・タクトタイム・誤読率をログに残して月次で改善。効果が確認できたライン・拠点から段階的に横展開します。

ラベル画像1枚から、無料で診断します

貴社のケース・ラベル画像を送っていただければ、元キーエンス画像処理エンジニアが読み取り可能性と推奨構成をレポートにしてお返しします。

画像1枚から無料相談 →

FAQ

Q. 液体レンズの寿命はどれくらいですか？

A. 製品にもよりますが、産業用途の液体レンズは一般に数億回以上のピント切替に耐える設計です。ラインカメラ筐体に組み込む形で提供するため、現場で特別なメンテナンスは不要です。

Q. VLMを本番ループで使うとレイテンシが問題になりませんか？

A. 物流OCRは一般的にケース1個あたり1〜3秒のタクトが許容されるため、VLMのレイテンシ（数百ms〜秒オーダー）でも実運用可能です。外観検査（0.2秒/個）とはタスク特性が違うので、VLMの使い方を切り替えています。

Q. 既存のWMSが古くAPIがありません。連携できますか？

A. 中継サーバー経由でCSV出力・DB更新・ファイル連携いずれにも対応します。既存WMS側の改修は最小限に抑える設計を標準としています。

Q. どの段階から費用が発生しますか？

A. 画像サンプル検証・ヒアリング・PoC設計書作成までは無料です。PoC実機導入から費用が発生し、PoC→本番展開の見積もりはPoC設計書段階で明示します。

監修：嶋野 元キーエンス画像処理部門。産業用カメラ・照明・光学系・検査装置の開発に従事し、現在はNsightの技術コンテンツ監修を担当。
プロフィール詳細 →

段ボール高さ違いのOCR自動化：液体レンズ×ラインカメラ×VLMで解決する物流現場の読み取り壁

なぜ従来のOCRは段ボール高さ違いで読めないのか

液体レンズによる「ミリ秒単位のピント切替」

なぜラインカメラとの組み合わせが効くのか

VLM OCRが「フォント・位置違い」を吸収する

3段構成のシステム全体像

WMS連携までの実装ステップ

既存ラインへの後付け手順（最短2週間 PoC）

Week 1：現場調査＋サンプル画像検証

Week 2：機器仮設置＋PoC運用開始

Week 3以降：PoC → 本番展開

ラベル画像1枚から、無料で診断します

FAQ

関連記事・関連ソリューション