合成データでAIを学習させる｜外観検査の実践手順と注意点

― 結論

合成データは「正しいパイプライン」で使えば外観検査AIの精度を大幅に底上げする

合成データを外観検査AIの学習に活用する最大のポイントは、生成・前処理・学習・評価の4ステップを一気通貫のパイプラインとして設計することです。実データとのブレンド比率は7:3（合成70%：実30%）を目安にスタートし、FIDやISといった品質評価指標で定期的にモニタリングすることで、過学習を防ぎながら高精度なモデルを構築できます。

製造業の外観検査では、不良品画像の収集が最大のボトルネックとなります。生産ラインの不良率が0.1%以下の工程では、十分な学習データを確保するまでに数か月を要するケースも珍しくありません。合成データを活用すれば、この課題を解消し、プロジェクト初期段階から高精度な検査モデルを立ち上げることが可能になります。

― 01 / 生成

ステップ1：合成データの生成 ― VLMによる欠陥画像の自動生成

良品画像収集、合成NG画像生成、自動アノテーション、モデル学習の4ステップパイプライン — 図1. 合成データ学習パイプライン -- VLMが教師役として生成からアノテーションまで自動化

合成データ生成の第一歩は、良品画像をベースにした欠陥パターンの自動生成です。VLM（Vision Language Model）は、良品画像から製品の外観特徴を学習し、そこから仮想的な不良画像を自動生成します。この手法の大きな利点は、実際の不良品を大量に用意しなくても、多様な欠陥パターンを網羅できる点にあります。

VLMが生成する欠陥パターンには、傷・打痕・汚れ・色ムラ・変形など、実際の製造ラインで発生し得るさまざまなタイプが含まれます。良品画像のバリエーション（照明条件、撮影角度、製品のロット差など）を十分に用意することで、より現実に即した合成データが得られます。

生成時に考慮すべきポイント

良品画像は最低100枚以上、照明条件や角度のバリエーションを含めて用意する
欠陥のサイズ・位置・深刻度にランダム性を持たせ、偏りを防ぐ
背景やテクスチャのドメインランダマイゼーションを適用し、汎化性能を高める
生成画像のメタデータ（欠陥タイプ・位置・サイズ）を同時に記録し、アノテーションコストを削減する

AIによる欠陥画像生成｜不良データ不足を解消する最新手法

― 02 / 前処理

ステップ2：前処理 ― 学習効率を最大化するデータ整備

生成した合成データをそのまま学習に投入するのではなく、適切な前処理を施すことが精度向上の鍵となります。前処理は大きく分けて「画像の正規化」「データ拡張（Data Augmentation）」「品質フィルタリング」の3つのステップで構成されます。

画像の正規化

合成データと実データの画素値分布を揃えることが重要です。合成画像は生成プロセスの特性上、実画像とは異なる輝度分布やコントラストを持つことがあります。ヒストグラムマッチングやスタイル転送を適用することで、ドメインギャップ（合成と実データの分布の差）を縮小できます。

データ拡張の適用

回転・反転・スケーリング・ノイズ付加・色調変動などのデータ拡張を合成データにも適用します。これにより、合成データ特有のアーティファクトに対するモデルのロバスト性が向上します。特にガウシアンノイズやJPEG圧縮アーティファクトの付加は、実環境のカメラ特性に近づけるうえで効果的です。

品質フィルタリング

生成された合成データの中には、非現実的なパターンや破綻した画像が含まれる場合があります。自動品質チェック（ぼやけ度判定、エッジ一貫性チェック等）と目視確認を組み合わせ、低品質データを除外します。この工程を省略すると、モデルが不自然なパターンを学習してしまうリスクがあります。

― Nsightの合成データ活用サポート
合成データの生成から前処理パイプラインの構築まで、製造業の外観検査に特化した支援を提供しています。お気軽にご相談ください。

対象製品に最適な合成データ生成手法の選定
実データとのドメインギャップ分析・最小化
品質フィルタリングの自動化パイプライン構築

― 03 / 学習

ステップ3：学習 ― 実データとのブレンドと最適な比率設計

合成データ単体でモデルを学習させるのではなく、実データとブレンドして学習させることが精度向上の最大のポイントです。ブレンド比率の目安は「合成データ70%：実データ30%」ですが、これはあくまで出発点であり、対象製品や不良パターンの複雑さに応じて調整が必要です。

※ 記載の金額・料金は記事執筆時点の参考値です。最新情報は各メーカー・ベンダーの公式サイトをご確認ください。

フェーズ	合成データ比率	実データ比率	想定シーン
初期立ち上げ	90%	10%	実データがほぼない段階
標準運用	70%	30%	実データが100〜500枚程度
精度追求	50%	50%	実データが1,000枚以上蓄積
成熟期	30%	70%	十分な実データが確保済み

カリキュラム学習の活用

合成データで事前学習（Pre-training）を行い、その後に実データでファインチューニングする「カリキュラム学習」アプローチも有効です。この手法では、合成データでモデルの基本的な特徴抽出能力を獲得させた後、実データで微調整を行うことで、少量の実データでも高精度を達成できます。

ドメイン適応技術の併用

合成データと実データのドメインギャップを学習プロセスの中で吸収するドメイン適応（Domain Adaptation）技術も注目されています。敵対的ドメイン適応やMMD（Maximum Mean Discrepancy）ベースの手法を損失関数に組み込むことで、合成データで学習した特徴を実データに効果的に転移できます。

― 過学習リスクに注意
合成データの割合が高すぎると、生成モデル特有のアーティファクトやパターンの偏りをモデルが学習してしまう「合成データへの過学習」が発生します。バリデーションセットには必ず実データのみを使用し、定期的に精度を確認してください。

合成データ×外観検査｜導入の全体像とベストプラクティス

― 04 / 評価

ステップ4：評価 ― FID・ISによる品質モニタリング

合成データの品質評価と、学習済みモデルの性能評価は明確に区別して実施する必要があります。合成データそのものの品質はFID（Frechet Inception Distance）とIS（Inception Score）で定量評価し、モデルの検査性能はPrecision・Recall・F1スコアで評価します。

FID（Frechet Inception Distance）

FIDは、合成データと実データの特徴量分布の距離を測定する指標です。値が小さいほど、合成データが実データに近い品質であることを示します。一般的に、FIDが50以下であれば外観検査用途として十分な品質、30以下であれば高品質と判断できます。生成モデルのチューニングや前処理パイプラインの改善効果を定量的に追跡するのに適しています。

IS（Inception Score）

ISは、生成画像の鮮明さと多様性を同時に評価する指標です。値が大きいほど高品質です。ただし、ISは画像のリアリズムよりも分類上の明確さを重視する傾向があるため、FIDと併用することが推奨されます。外観検査の文脈では、欠陥パターンの多様性が十分にカバーされているかの確認に活用できます。

評価指標	対象	良好の目安	用途
FID	合成データ品質	50以下	生成モデルのチューニング
IS	合成データ品質	高いほど良い	多様性・鮮明さの評価
Precision	モデル性能	95%以上	誤検出率の評価
Recall	モデル性能	90%以上	見逃し率の評価
F1 Score	モデル性能	92%以上	総合精度の評価

― 05 / 運用設計

パイプライン全体の設計と運用のコツ

撮像レイヤからデータ生成レイヤ、学習レイヤ、本番検査レイヤまでの4層アーキテクチャ — 図2. 合成データパイプラインの全体設計 -- VLMは裏方で威力を発揮、本番検査はCNNが高速実行

合成データ活用パイプラインを継続的に運用するためには、各ステップを自動化し、再現可能な形で管理することが重要です。以下に、運用上のベストプラクティスをまとめます。

バージョン管理の徹底

生成モデルのバージョン、前処理パラメータ、学習設定（ハイパーパラメータ）、ブレンド比率などをすべてバージョン管理下に置きます。合成データセットにもバージョン番号を付与し、どのデータセットでどの精度が得られたかを追跡可能にしておくことで、問題発生時の原因特定と改善が容易になります。

段階的なデータ拡充

初期は少量の合成データで学習を開始し、評価結果に基づいて不足している欠陥パターンや条件を特定し、追加生成するサイクルを回します。一度に大量のデータを生成するのではなく、小さなイテレーションを繰り返すアプローチが効率的です。

実データへの段階的移行

生産ラインが稼働し始めると、実際の不良品画像が少しずつ蓄積されていきます。実データが増えるにつれて合成データの比率を下げ、最終的には実データ主体のモデルに移行していくロードマップを描いておくことが重要です。ただし、レアケース（発生頻度の極めて低い不良パターン）に対しては、成熟期でも合成データによる補完が有効です。

GANによる欠陥画像生成｜最新技術と外観検査への応用

― まとめ

まとめ：合成データパイプラインの構築が外観検査AIの成功を左右する

合成データを外観検査AIに活用するためには、生成・前処理・学習・評価の4ステップをパイプラインとして設計し、各ステップの品質を定量的に管理することが不可欠です。実データとのブレンド比率は7:3を起点に、プロジェクトの進行に合わせて動的に調整していきましょう。

特に重要なのは、合成データの品質評価（FID/IS）とモデルの検査性能評価（Precision/Recall）を明確に分離し、それぞれを継続的にモニタリングする体制を整えることです。これにより、合成データの品質低下やモデルの過学習を早期に検知し、迅速に対処できます。

― FAQ

よくある質問

合成データと実データの最適なブレンド比率は？

一般的には合成データ70%：実データ30%が目安です。ただし、対象製品の不良パターンの複雑さや実データの取得難易度によって調整が必要です。実データが極端に少ない初期段階では合成データ90%から始め、実データが蓄積されるにつれて比率を調整していくアプローチが有効です。

合成データの品質はどう評価すればよい？

定量評価にはFID（Frechet Inception Distance）とIS（Inception Score）が広く使われます。FIDは実データとの分布の近さを測定し、値が小さいほど高品質です。ISは生成画像の多様性と鮮明さを評価します。加えて、最終的にはダウンストリームタスク（検査精度）での評価が最も重要です。

合成データを使うと過学習のリスクはある？

はい、合成データ特有のアーティファクトや偏りを学習してしまう「合成データへの過学習」リスクがあります。対策として、データ拡張（回転・ノイズ付加等）の併用、実データとのブレンド、ドメインランダマイゼーション、定期的な実データでのバリデーションが有効です。

合成データの生成にはどのくらい時間がかかる？

VLMによる欠陥画像の自動生成は、初期セットアップ（良品画像の学習）に数時間、その後の画像生成は1枚あたり数秒〜数十秒程度です。1,000枚規模のデータセット生成であれば、GPUマシンで数時間から半日程度が目安です。従来の手動撮影・アノテーションに比べて大幅に短縮できます。