VLM(Vision Language Model)とは
VLM(Vision Language Model)は、画像認識と自然言語処理を1つのモデルに統合したAIです。画像を入力し、自然言語で指示・質問すると、画像内容を理解した上でテキストで回答します。
代表的なVLMにはGPT-4V(OpenAI)、Gemini(Google)、Claude(Anthropic)のビジョン機能があります。Nsightではこれらの技術を外観検査に特化させ、製造現場で安定稼働するシステムとして実装しています。
VLMの基本構成
画像エンコーダ
入力画像を特徴ベクトルに変換(ViT/CLIPベース)
言語モデル
入力を理解し、画像特徴と結合して推論
結合層
画像とテキストの情報を統合するマルチモーダル中間層
外観検査におけるVLMの3つの役割
学習コストの削減
NG画像生成で学習データの不足を補完。オートアノテーションで教師データ作成を自動化。品種追加時の学習工数を大幅削減。
ラベル文字認識・照合
賞味期限・ロット番号・バーコードの印字検証。品種ごとのOCRモデル開発なし。従来数千万円→大幅削減。
不良内容の言語説明
「右上に0.5mmの線状キズ」のように不良を自然言語で記述。検査記録の詳細化と不良原因分析が容易に。
VLM vs ルールベース vs Deep Learning 比較
| 項目 | ルールベース | Deep Learning (CNN) | VLM |
|---|---|---|---|
| 学習データ | 不要 | 数百〜数千枚/品種 | NG画像生成で補完 |
| 品種追加工数 | 数日〜数週間 | 数週間〜数ヶ月 | NG画像生成・オートアノテーション |
| 推論速度 | 最速(数ms) | 高速(数十ms) | 中速(数百ms〜秒) |
| 既知欠陥の精度 | 中〜高 | 最高 | 高 |
| 未知欠陥への対応 | 不可 | 困難 | 対応可能 |
| 文字認識 | 困難 | 個別開発 | 標準対応 |
| 寸法測定 | 高精度 | 中精度 | 不向き |
| 判定理由の説明 | 不可 | 困難 | 自然言語で説明 |
重要な結論
VLMは「品種追加の工数」と「文字認識」で圧倒的に有利。しかし「推論速度」と「寸法測定」ではルールベースに劣る。だからこそ3技術を組み合わせたハイブリッド構成が正解。
VLMが向く検査・向かない検査
VLMが効果を発揮
10品種以上の多品種ライン、ラベル印字の正誤判定、不良サンプルが少ない製品、検査基準が言語記述可能な検査
VLMが向かない
タクトタイム30ms以下、寸法公差±0.01mm以下の精密測定、学習データ十分な単一品種の既知欠陥
ハイブリッドで解決
1次:ルールベースで高速通過。2次:VLMで詳細判定。文字認識:VLM。寸法:ルールベース。
エッジ実装:NVIDIA Jetson + TensorRT
NsightはNVIDIA Inception Program Partnerとして、Jetson AGX OrinにTensorRTで最適化したモデルをデプロイ。クラウド依存せず工場内のエッジデバイスで推論を完結。ネットワーク遅延やセキュリティ問題を回避します。