VLMでNG画像を自動生成する｜従来手法との違いと導入フロー

VLMは良品画像と欠陥の概念理解からNG画像0枚の状態でも仮想NG画像を生成できる。GANとの根本的な違いはスタート地点にある。

NsightではVLMを「教師役」に徹させ、本番検査判定はCNN×ルールベースが担う。推論速度・閾値制御・説明責任の3理由から分離設計を採用。

NG画像0枚から約2週間でCNNベースの検査AIを構築できる6ステップフローを実践している。

― 01 / 従来手法との違い

VLMによるNG画像自動生成 ── 従来手法との根本的な違い

VLM（Vision Language Model）は、大量のインターネットデータで事前学習された汎用的な「世界知識」を持つAIモデルです。この世界知識には「キズとはどういう見た目か」「打痕はどういうテクスチャか」「異物はどういう色調か」という欠陥の概念が含まれています。VLMはこの知識を使い、良品画像から仮想NG画像を自動生成します。

従来のGANとの決定的な違いは、NG画像が0枚の状態でも生成を開始できること。GANは「NG画像からNG画像を作る」のに対し、VLMは「良品画像と欠陥の概念理解からNG画像を作る」。スタート地点が根本的に異なります。

― 02 / Nsightのアーキテクチャ

NsightにおけるVLMの役割 ── 「教師役」に徹する

Nsightの検査アーキテクチャでは、VLMとCNNの役割を明確に分離しています。VLMは「準備係（教師役）」であり、CNNが「本番の検査員」です。

この分離には4つの理由があります。

理由	詳細
推論速度	VLMの推論は500ms以上かかり、タクトタイム数十msの製造ラインでは回せない。CNNなら10ms以下で判定可能。
閾値制御	製造業は「スコア○○以上はNG」の定量判定が必須。VLMは定性的で閾値制御が不安定。CNNなら数値ベースで明確に判定。
説明責任	品質監査で「AIがそう言った」は通らない。CNNの出力はヒートマップで可視化でき、判定根拠を示せる。
ハルシネーション	VLMは「間違った自信」を持つリスクがある。CNNは数値出力なのでブレが少ない。

― 03 / 実践フロー

VLMによるNG画像生成の実践フロー

良品画像の準備（1〜2日）：本番と同じカメラ・照明で100枚以上撮影。複数ロット・複数日にまたがること。
検査基準の確認（1日）：検出すべき欠陥の種類・サイズ・位置をリスト化。
仮想NG画像の自動生成（2〜3日）：VLMが各欠陥パターンのNG画像を自動生成。パターンあたり50〜100枚。閾値ギリギリの画像を30%含める。
品質チェック＋アノテーション確認（1日）：VLMが自動付与したアノテーションを検査員が確認。採用率70〜80%。
CNNモデルの学習（2〜3日）：良品＋仮想NG画像でCNNを学習。バリデーションは実データのみ。
本番投入＋実データ蓄積（2〜4週間）：CNNが本番で検査。実物のNG画像を自動蓄積し、週次で追加学習。

このフローで、NG画像0枚の状態から約2週間でCNNベースの検査AIを構築できます。

― 04 / 限界と注意点

VLMのゼロショットと限界

VLMのゼロショットは万能ではない

VLMが事前学習しているのはインターネット上のデータです。文字やバーコードなどネットに大量にあるものは強いですが、特定製品の微細欠陥や業界固有の検査基準はネット上に存在しません。製造業の検査の大半は「その製品・その工程を知らないと判断できない」もの。だからこそVLMを検査の本番エンジンとして使うのではなく、NG画像生成とアノテーション自動化という「教師役」に徹させるのがNsightのアプローチです。

まとめ

VLMによるNG画像自動生成は、AI外観検査の導入障壁を根本的に下げる技術です。0枚からスタートできること、アノテーションまで自動化されること。この2点がGANとの決定的な違いです。ただしVLMは本番検査には使わず、「教師役」に徹する。本番はCNNが担う。この直列構成こそがNsightの技術的な核心です。

― 05 / 革新性と技術原理

VLMによるNG画像生成の革新性

従来のGANベースNG画像生成は、品種ごとに大量データと長い学習時間が必要でした。VLMの登場で、少量データから即座にNG画像生成が可能になり、AI検査導入の障壁が劇的に下がりました。

VLM NG生成の技術原理

VLMは事前学習で「キズ」「打痕」「色ムラ」「異物」などの一般的概念を学習済み。OK画像と自然言語指示を入力するだけで、概念に応じたNG画像を合成生成できます。

― 06 / プロンプト例

典型的なプロンプト例

「この画像の中央上部に長さ5mmの引っかき傷を追加」
「右側に直径2mmの黒い異物を追加」
「全体を10%くすませた色合いに変換」
「左下に小さなヒケ（凹み）を追加」

― 07 / 品質向上の工夫

NG生成の品質を高める工夫

図1. VLM NG生成の品質向上3工夫

工夫①: 詳細プロンプト設計

位置・サイズ・形状・色を具体的に指示することで、リアルなNG画像を生成。

工夫②: 多様性確保

同じ不良タイプでも、サイズ・位置・形状のバリエーションを意図的に生成。

工夫③: 物理的妥当性

「金型割れによる傷は通常パーティングラインに沿う」など、物理現象として妥当な不良パターンを指示。

業界	主要NG生成パターン
金属	傷・打痕・腐食・変色
樹脂	ヒケ・気泡・ウェルドライン
食品	異物・変色・形状不良
化粧品	容器傷・印字ミス

― 09 / 限界と応用範囲

VLM NG生成の限界と応用範囲拡大

VLM NG生成の限界

物理的に複雑な内部欠陥は精度限界あり
ハイレゾ画像の生成は計算コスト高
業界固有の希少不良は事前学習データ不足の可能性

応用範囲の拡大

VLM NG生成は当初「学習データ拡張」が主用途でしたが、応用範囲が拡大しています。新人検査員教育用の標準サンプル作成、稀少不良パターンのシミュレーション、品質基準すり合わせ会の議論材料、AIモデル弱点検証用の意図的サンプル生成。教育・品質管理・モデル改善など、多様な用途で活用が進んでいます。

業界別適用の標準化

業界別のVLM NG生成適用パターンが標準化しています。金属業界は傷・打痕・腐食・変色、樹脂業界はヒケ・気泡・ウェルドライン、食品業界は異物・変色・形状不良、化粧品業界は容器傷・印字ミス・装飾不良。業界共通の不良パターンに加え、各業界固有の不良パターンを生成する技術が、今後さらに発展する見込みです。

NG画像が足りない？まずはサンプル画像で無料相談

無料相談を依頼する →

― 11 / FAQ

よくある質問

VLM学習に必要なデータ量は？

ゼロショット利用なら追加学習不要です。ファインチューニングする場合、数百〜数千枚のラベル付きデータで効果が出ます。

VLM（Vision Language Model）とは何ですか？

画像と自然言語の両方を理解する大規模AIモデルです。ゼロショットでの画像分類・質問応答・照合が可能です。

VLMは本番の検査判定に使えますか？

現時点では、VLMは裏方（NG画像生成・オートアノテーション・学習データ拡張）として活用し、本番判定は軽量モデルが主流です。

VLMでNG画像を自動生成する
従来手法との違いと導入フロー