GANとは ── 外観検査における位置づけ
GAN(Generative Adversarial Network:敵対的生成ネットワーク)は、2つのニューラルネットワークを競わせることでリアルな画像を生成する技術です。外観検査では「不良画像の生成器」として活用されます。
画像検査の技術は4つのTierに整理できます。Tier 4(ルールベース)→ Tier 3(機械学習)→ Tier 2(ディープラーニング/CNN)→ Tier 1(基盤モデル/VLM)。GANはTier 2に属する技術で、CNNの学習データを補強するために使用します。
外観検査で使われるGANアーキテクチャ
Pix2Pix ── ペア画像で制御しやすい
良品画像と不良画像のペアで学習し、良品→不良の変換を行います。欠陥の位置を制御しやすい反面、ペアデータの準備が必要です。位置合わせが正確なら、最も安定した結果を出します。
CycleGAN ── ペアなしで学習可能
良品群と不良品群を用意するだけでペアなしで学習可能。データ準備が楽ですが、欠陥の種類や位置の制御が難しく、「どんな欠陥が生成されるか」がGAN任せになります。
StyleGAN ── 高品質だが重い
高解像度・高品質な画像を生成でき、微細な欠陥の再現に強い。ただしGPUリソースを大量に消費し、学習の安定化にノウハウが必要です。
GANの実践的な問題 ── 現場で遭遇した3つの壁
壁1:モード崩壊(最大の問題)
GANが似たような画像ばかり生成するようになる現象です。ある案件で500枚生成しましたが、実質ユニークなパターンは35種類程度でした。対策として、学習率の調整やSpectral Normalizationの適用が有効ですが、完全には防げません。生成画像は必ず目視チェックし、重複パターンを除去する工程が必要です。
壁2:鶏と卵問題
GANの学習自体にNG画像が50〜100枚/パターン必要。NG画像が少ない初期段階ではGANは使えません。Nsightでは初期フェーズはVLMで仮想NG画像を生成し、実データが蓄積された段階でGANに切り替える直列運用を行っています。
壁3:微細欠陥の再現限界
0.1mm以下の微細なキズやピンホールは、画像解像度の制約でGANでの再現が難しい場合があります。解像度を上げればGPUメモリが足りなくなり、パッチ分割すると欠陥がパッチ境界で分断されるジレンマがあります。微細欠陥にはVLMとの併用が現実的です。
GANの位置づけ ── Nsightのアーキテクチャにおいて
GANはVLMと同様に「教師役」です。GANで生成した不良画像はCNNの学習データとして使用され、本番検査はCNNが行います。GANの強みは「高品質な画像を高速に大量生成できる」こと。VLMの強みは「0枚からスタートできる」こと。フェーズに応じて使い分け、最終的にはCNNが本番の検査員として稼働します。
まとめ
GANは外観検査用のNG画像生成において最も成熟した技術です。ただしNG画像が50枚以上ある段階で初めて使える手法であり、初期導入にはVLMが先行します。GANの限界(モード崩壊・鶏と卵・微細欠陥)を理解した上で、VLMと組み合わせて使うのが実務上の最適解です。