ホーム > 技術解説 > VLMによる外観検査

VLM(Vision Language Model)を活用した外観検査の仕組み

VLMとは何か、外観検査でどう使うのか、従来のルールベース・Deep Learningとの違い、VLMが向く検査・向かない検査を技術的に解説。

無料サンプル検証を依頼する →

VLM(Vision Language Model)とは

VLM(Vision Language Model)は、画像認識と自然言語処理を1つのモデルに統合したAIです。画像を入力し、自然言語で指示・質問すると、画像内容を理解した上でテキストで回答します。

代表的なVLMにはGPT-4V(OpenAI)、Gemini(Google)、Claude(Anthropic)のビジョン機能があります。Nsightではこれらの技術を外観検査に特化させ、製造現場で安定稼働するシステムとして実装しています。

AI技術

VLMの基本構成

🖼️

画像エンコーダ

入力画像を特徴ベクトルに変換(ViT/CLIPベース)

📝

言語モデル

入力を理解し、画像特徴と結合して推論

🔗

結合層

画像とテキストの情報を統合するマルチモーダル中間層

外観検査におけるVLMの3つの役割

🔄

学習コストの削減

NG画像生成で学習データの不足を補完。オートアノテーションで教師データ作成を自動化。品種追加時の学習工数を大幅削減。

🔤

ラベル文字認識・照合

賞味期限・ロット番号・バーコードの印字検証。品種ごとのOCRモデル開発なし。従来数千万円→大幅削減。

💬

不良内容の言語説明

「右上に0.5mmの線状キズ」のように不良を自然言語で記述。検査記録の詳細化と不良原因分析が容易に。

データ分析

VLM vs ルールベース vs Deep Learning 比較

項目ルールベースDeep Learning (CNN)VLM
学習データ不要数百〜数千枚/品種NG画像生成で補完
品種追加工数数日〜数週間数週間〜数ヶ月NG画像生成・オートアノテーション
推論速度最速(数ms)高速(数十ms)中速(数百ms〜秒)
既知欠陥の精度中〜高最高
未知欠陥への対応不可困難対応可能
文字認識困難個別開発標準対応
寸法測定高精度中精度不向き
判定理由の説明不可困難自然言語で説明

重要な結論

VLMは「品種追加の工数」と「文字認識」で圧倒的に有利。しかし「推論速度」と「寸法測定」ではルールベースに劣る。だからこそ3技術を組み合わせたハイブリッド構成が正解。

VLMが向く検査・向かない検査

VLMが効果を発揮

10品種以上の多品種ライン、ラベル印字の正誤判定、不良サンプルが少ない製品、検査基準が言語記述可能な検査

⚠️

VLMが向かない

タクトタイム30ms以下、寸法公差±0.01mm以下の精密測定、学習データ十分な単一品種の既知欠陥

🔧

ハイブリッドで解決

1次:ルールベースで高速通過。2次:VLMで詳細判定。文字認識:VLM。寸法:ルールベース。

エッジ実装:NVIDIA Jetson + TensorRT

NsightはNVIDIA Inception Program Partnerとして、Jetson AGX OrinにTensorRTで最適化したモデルをデプロイ。クラウド依存せず工場内のエッジデバイスで推論を完結。ネットワーク遅延やセキュリティ問題を回避します。

エッジAI
ソリューション
多品種外観検査AI|VLMで学習コストを削減
業界別ソリューション
化粧品外観検査AI|容器キズ・ラベル印字・異品種混入を自動検出

VLMと外観検査に関するよくある質問

画像認識と自然言語処理を統合したAIモデル。画像を入力しテキストで指示すると画像内容を理解して回答。外観検査ではNG画像生成・オートアノテーションで学習コストを削減し、ラベル検査では学習なしで文字認識・照合が可能。
最大の違いは学習データ要件。CNNは品種ごとに数百〜数千枚の教師あり学習が必要。VLMはプロンプトで検査基準を定義可能。一方、推論速度はCNNが高速で既知欠陥はCNNが精度で優位。
現時点では非推奨。推論速度・寸法測定・既知欠陥の安定判定でルールベースやCNNに劣る場合があるため、ハイブリッド構成を採用。

まずはサンプル画像で無料検証しませんか?

検査対象のサンプル画像をお送りください。最適な検査方式の提案と想定精度を無料で評価します。

無料サンプル検証を依頼する →