VLM（Vision Language Model）による外観検査とは？従来AIとの違いを解説

VLM（Vision Language Model）とは

VLM（Vision Language Model）は、画像認識と自然言語処理を1つのモデルに統合したAIです。画像を入力し、自然言語で指示・質問すると、画像内容を理解した上でテキストで回答します。

代表的なVLMにはGPT-4V（OpenAI）、Gemini（Google）、Claude（Anthropic）のビジョン機能があります。Nsightではこれらの技術を外観検査に特化させ、製造現場で安定稼働するシステムとして実装しています。

VLMの基本構成

🖼️

画像エンコーダ

入力画像を特徴ベクトルに変換（ViT/CLIPベース）

📝

言語モデル

入力を理解し、画像特徴と結合して推論

🔗

結合層

画像とテキストの情報を統合するマルチモーダル中間層

外観検査におけるVLMの3つの役割

🔄

学習コストの削減

NG画像生成で学習データの不足を補完。オートアノテーションで教師データ作成を自動化。品種追加時の学習工数を大幅削減。

🔤

ラベル文字認識・照合

賞味期限・ロット番号・バーコードの印字検証。品種ごとのOCRモデル開発なし。従来数千万円→大幅削減。

💬

不良内容の言語説明

「右上に0.5mmの線状キズ」のように不良を自然言語で記述。検査記録の詳細化と不良原因分析が容易に。

VLM vs ルールベース vs Deep Learning 比較

項目	ルールベース	Deep Learning (CNN)	VLM
学習データ	不要	数百〜数千枚/品種	NG画像生成で補完
品種追加工数	数日〜数週間	数週間〜数ヶ月	NG画像生成・オートアノテーション
推論速度	最速（数ms）	高速（数十ms）	中速（数百ms〜秒）
既知欠陥の精度	中〜高	最高	高
未知欠陥への対応	不可	困難	対応可能
文字認識	困難	個別開発	標準対応
寸法測定	高精度	中精度	不向き
判定理由の説明	不可	困難	自然言語で説明

重要な結論

VLMは「品種追加の工数」と「文字認識」で圧倒的に有利。しかし「推論速度」と「寸法測定」ではルールベースに劣る。だからこそ3技術を組み合わせたハイブリッド構成が正解。

VLMが向く検査・向かない検査

✅

VLMが効果を発揮

10品種以上の多品種ライン、ラベル印字の正誤判定、不良サンプルが少ない製品、検査基準が言語記述可能な検査

⚠️

VLMが向かない

タクトタイム30ms以下、寸法公差±0.01mm以下の精密測定、学習データ十分な単一品種の既知欠陥

🔧

ハイブリッドで解決

1次：ルールベースで高速通過。2次：VLMで詳細判定。文字認識：VLM。寸法：ルールベース。

エッジ実装：NVIDIA Jetson + TensorRT

NsightはNVIDIA Inception Program Partnerとして、Jetson AGX OrinにTensorRTで最適化したモデルをデプロイ。クラウド依存せず工場内のエッジデバイスで推論を完結。ネットワーク遅延やセキュリティ問題を回避します。

ソリューション

多品種外観検査AI｜VLMで学習コストを削減

業界別ソリューション

化粧品外観検査AI｜容器キズ・ラベル印字・異品種混入を自動検出

VLM（Vision Language Model）を活用した外観検査の仕組み