VLMでNG画像を自動生成する|従来手法との違いと導入フロー
ホーム > ブログ > ng-image-generation-vlm

VLMでNG画像を自動生成する|導入フローと注意点

VLM(Vision Language Model)が不良パターンを理解し良品画像から仮想NG画像を自動生成する仕組みと実践フロー。

VLMによるNG画像自動生成 ── 従来手法との根本的な違い

VLM(Vision Language Model)は、大量のインターネットデータで事前学習された汎用的な「世界知識」を持つAIモデルです。この世界知識には「キズとはどういう見た目か」「打痕はどういうテクスチャか」「異物はどういう色調か」という欠陥の概念が含まれています。VLMはこの知識を使い、良品画像から仮想NG画像を自動生成します。

従来のGANとの決定的な違いは、NG画像が0枚の状態でも生成を開始できること。GANは「NG画像からNG画像を作る」のに対し、VLMは「良品画像と欠陥の概念理解からNG画像を作る」。スタート地点が根本的に異なります。

NsightにおけるVLMの役割 ── 「教師役」に徹する

Nsightの検査アーキテクチャでは、VLMとCNNの役割を明確に分離しています。VLMは「準備係(教師役)」であり、CNNが「本番の検査員」です。

この分離には4つの理由があります。

VLMによるNG画像生成の実践フロー

  1. 良品画像の準備(1〜2日):本番と同じカメラ・照明で100枚以上撮影。複数ロット・複数日にまたがること
  2. 検査基準の確認(1日):検出すべき欠陥の種類・サイズ・位置をリスト化
  3. 仮想NG画像の自動生成(2〜3日):VLMが各欠陥パターンのNG画像を自動生成。パターンあたり50〜100枚。閾値ギリギリの画像を30%含める
  4. 品質チェック+アノテーション確認(1日):VLMが自動付与したアノテーションを検査員が確認。採用率70〜80%
  5. CNNモデルの学習(2〜3日):良品+仮想NG画像でCNNを学習。バリデーションは実データのみ
  6. 本番投入+実データ蓄積(2〜4週間):CNNが本番で検査。実物のNG画像を自動蓄積し、週次で追加学習

このフローで、NG画像0枚の状態から約2週間でCNNベースの検査AIを構築できます。

VLMのゼロショットは万能ではない

VLMが事前学習しているのはインターネット上のデータです。文字やバーコードなどネットに大量にあるものは強いですが、特定製品の微細欠陥や業界固有の検査基準はネット上に存在しません。製造業の検査の大半は「その製品・その工程を知らないと判断できない」もの。だからこそVLMを検査の本番エンジンとして使うのではなく、NG画像生成とアノテーション自動化という「教師役」に徹させるのがNsightのアプローチです。

まとめ

VLMによるNG画像自動生成は、AI外観検査の導入障壁を根本的に下げる技術です。0枚からスタートできること、アノテーションまで自動化されること。この2点がGANとの決定的な違いです。ただしVLMは本番検査には使わず、「教師役」に徹する。本番はCNNが担う。この直列構成こそがNsightの技術的な核心です。

関連記事
NG画像生成で外観検査を変える

監修:嶋野(元キーエンス画像処理部門 開発)

キーエンス画像処理部門での実務経験をもとに、製造業の外観検査・画像処理に関する技術監修を行っている。会社概要 →

NG画像が足りない?まずは無料相談

サンプル画像をお送りいただければ、NG画像生成を含む最適な検査構成を無料で提案します。

無料相談を依頼する →