画像処理シリーズ|全3回
- 第1回:画像の基本(画素・解像度・色空間)と前処理(二値化・フィルタ)
- 第2回:検査で使う画像処理(エッジ検出・パターンマッチング・ブロブ解析)
- 第3回(本記事):AI画像処理と従来画像処理の使い分け
結論:「全部AI」も「全部ルールベース」も間違い
最適な検査システムは、ルールベース画像処理とAIを適材適所で組み合わせた「ハイブリッド構成」です。ルールベースが得意な検査にAIを使うとコストと複雑さが増すだけで精度は上がりません。逆に、AIが得意な検査をルールベースで無理に対応しようとすると、パラメータ調整の泥沼にはまります。
本記事では、ルールベース・Deep Learning・VLMの3つの手法を比較し、「どの検査にどの手法を使うべきか」の判断基準を示します。
3層構成 ── ルールベース・Deep Learning・VLM
第1層:ルールベース画像処理
第1回・第2回で解説した二値化、エッジ検出、パターンマッチング、ブロブ解析などの手法です。人間がルール(閾値、フィルタ、テンプレート)を設計し、画像を処理します。
強み:
- 処理速度が非常に速い(msオーダー)。高速タクトタイムに対応
- 結果の根拠が明確。「なぜNGと判定したか」を数値で説明できる
- 学習データが不要。テンプレート登録と閾値設定で運用開始
- GPUなどの高価なハードウェアが不要。CPUだけで動作
弱み:
- 「ルールで定義できる欠陥」しか検出できない。不定形欠陥に弱い
- 品種が増えるとパラメータの管理が煩雑化する
- 照明条件や外観の微妙な変動に対してパラメータの再調整が必要
第2層:Deep Learning(CNN)
畳み込みニューラルネットワーク(CNN)を使い、大量の画像データから欠陥の特徴を自動学習する手法です。分類(OK/NG)、物体検出(欠陥の位置特定)、セグメンテーション(欠陥領域の画素単位の特定)の3段階があります。
強み:
- 不定形欠陥(キズ、汚れ、色ムラ、変形)を高精度に検出
- 人間が定義しにくい「微妙な違い」を学習で捉える
- TensorRT等で最適化すれば、エッジAIデバイス(Jetson等)でリアルタイム推論が可能
弱み:
- 学習データ(特にNG画像)が必要。欠陥が稀少な場合はデータ収集が困難
- 「なぜNGと判定したか」の説明が難しい(ブラックボックス性)
- 新しい欠陥パターンが出現すると再学習が必要
- GPU搭載ハードウェアが必要(Jetson等のエッジデバイスで対応可能)
第3層:VLM(Vision Language Model)
VLM(視覚言語モデル)は、画像とテキストを同時に理解するAIです。「この画像にキズはありますか?」のようにテキストで検査指示を与え、画像を分析させることができます。
重要な位置づけ:VLMは「教師役」であり、本番検査はCNNまたはルールベースで実行します。
VLMの役割:
- NG画像の自動生成:良品画像をもとに、欠陥を含む画像を生成。学習データ不足を解決
- アノテーションの自動化:画像中の欠陥位置をテキスト指示で自動ラベリング。人手のアノテーション工数を大幅削減
- 検査基準のテキスト定義:「表面にφ0.5mm以上のピンホールがあればNG」のように自然言語で検査基準を記述
- ラベル・文字認識(OCR):従来OCRでは対応が難しかった多フォント・多言語・レイアウト変動にも柔軟に対応
本番検査にVLMを使わない理由:推論速度が遅い(数秒/枚)、GPU/クラウドのコストが高い、ハルシネーション(誤った回答を自信を持って返す)のリスクがある。検査ラインの高速・高信頼性の要件にはCNNやルールベースが適しています。
現場Tips:VLMの「教師役」としての価値
多品種対応の検査システムでは、品種ごとにNG画像を収集してアノテーションする工数が最大のボトルネックになります。VLMを教師役として活用することで、この工数を劇的に削減できます。VLMが生成・ラベリングしたデータでCNNを学習し、本番検査はCNNが高速に実行する。この「VLM→CNN」のパイプラインが、現時点で最も費用対効果が高い構成です。
ルールベース×AIの最適構成を無料提案
検査対象のサンプル画像をお送りください。最適な手法の組み合わせと想定精度を評価します。
無料サンプル検証 →判断基準:3つの軸で最適手法を選ぶ
軸1:タクトタイム
| タクトタイム | 推奨手法 | 理由 |
|---|---|---|
| 100ms以下 | ルールベース | CPUだけで高速処理。GPU不要 |
| 100ms〜1秒 | ルールベース + CNN | TensorRT最適化でCNNも高速推論可能 |
| 1秒以上 | CNN中心 | 精度重視の構成が可能 |
軸2:欠陥の定義しやすさ
| 欠陥の性質 | 推奨手法 | 具体例 |
|---|---|---|
| ルールで明確に定義可能 | ルールベース | 寸法の公差外れ、位置ズレ、欠品、色の数値範囲 |
| 「見ればわかるが言語化が難しい」 | CNN(Deep Learning) | キズ、汚れ、色ムラ、変形、異物 |
| 検査基準が頻繁に変わる | CNN + VLM(教師役) | 多品種の新品種追加、季節による基準変更 |
軸3:品種数
| 品種数 | 推奨手法 | 理由 |
|---|---|---|
| 1〜5品種 | ルールベース | 品種ごとのパラメータ管理が容易 |
| 5〜50品種 | ルールベース + CNN | 共通検査はルールベース、品種固有はCNN |
| 50品種以上 | CNN + VLM(教師役) | 品種ごとの再学習をVLMで自動化 |
ルールベースが勝つケース
寸法計測
外形寸法、穴径、ピッチ間隔などの計測は、エッジ検出+トレンドエッジで0.01画素単位の精度が出ます。Deep Learningはピクセル単位の分類しかできないため、サブピクセル精度の寸法計測にはルールベースが圧倒的に有利です。処理速度も数ms。
位置合わせ(アライメント)
パターンマッチングによる位置決めは、処理速度・精度・安定性のすべてでルールベースが優れています。エッジベースマッチングなら照明変動にも強く、学習データも不要です。検査フローの「起点」となる位置決めは、信頼性が最優先であり、ルールベースの一択です。
色判定
OK/NGの境界を色空間(HSV等)の数値で定義できる場合、ルールベースが最適です。色の数値を閾値で判定するだけなので高速であり、判定根拠も明確です。「この色は合格範囲か」を数値で説明する必要がある品質保証の現場では、AIのブラックボックス性が問題になります。
Deep Learning(CNN)が勝つケース
不定形欠陥の検出
キズ・汚れ・変形など、形状やサイズが不定な欠陥はCNNの独壇場です。ルールベースでは「どんな形のキズを検出するか」を事前に定義する必要がありますが、製造現場のキズは形状もサイズも予測不可能です。CNNは大量のNG画像から「キズとはこういうもの」を自動学習するため、未知のパターンにも対応できます。
微妙な外観差異の判定
めっきの色ムラ、樹脂成形品のフローマーク、食品の焼きムラなど、OK/NGの境界が微妙で人間でも判断に迷うケースがあります。こうしたグレーゾーンの判定は、大量の教師データで学習したCNNが人間以上の安定性を発揮します。検査員の個人差やコンディションによるばらつきも解消されます。
複合判定
複数の欠陥種類を同時に検出・分類する場合、ルールベースでは欠陥ごとにパラメータを個別設計する必要があり、組み合わせが爆発的に増えます。CNNなら1つのモデルで複数の欠陥種類を同時に検出・分類でき、メンテナンス性が格段に向上します。
現場Tips:NG画像が足りないときのアプローチ
Deep Learningの最大のハードルは「NG画像の収集」です。製造業では不良品の発生率が低い(0.1%以下)場合が多く、十分なNG画像を集められないことがあります。この場合、①良品画像のみで学習する異常検知アプローチ、②VLMによるNG画像の自動生成、③データ拡張(回転・反転・明るさ変動)を組み合わせることで、少ないNG画像でもモデルを構築できます。
VLMの役割 ── 本番検査ではなく「裏方」で威力を発揮
NG画像の自動生成
良品画像をVLMに入力し、「この表面にキズを加えた画像を生成して」と指示することで、リアルなNG画像を大量に生成できます。品種ごとにNG画像を人手で収集する必要がなくなり、多品種対応の最大ボトルネックが解消されます。生成したNG画像は人間がレビューし、品質が十分なものだけをCNNの学習データに使います。
アノテーションの自動化
CNNの学習には「どこに欠陥があるか」のラベル情報(アノテーション)が必要です。従来は人間が1枚ずつ手作業でラベリングしていましたが、VLMに「この画像のキズの位置をバウンディングボックスで示して」と指示すれば、自動でアノテーションできます。多数の導入現場での実績では、人手のアノテーション工数を90%削減しています。
ラベル・文字認識(OCR)
食品包装の賞味期限、医薬品のロット番号、電子部品の型番など、多品種・多フォント・多言語のOCRはVLMが従来OCRを大きく上回ります。ただし、処理速度の制約から、ライン速度が速い場合はVLMで学習したCNNベースのOCRモデルに蒸留して本番運用するケースもあります。
ハイブリッド構成の設計例
設計例:自動車部品の外観検査
タクトタイム:500ms / 品種数:30 / 検査内容:寸法+外観
| 検査項目 | 手法 | 理由 |
|---|---|---|
| ワーク位置決め | パターンマッチング(ルールベース) | 高速・高精度・安定 |
| 外形寸法測定 | エッジ検出+トレンドエッジ(ルールベース) | サブピクセル精度が必要 |
| キズ・打痕検出 | CNN(YOLOv8 + TensorRT) | 不定形欠陥。ルールで定義不可 |
| 品種判別 | CNN分類モデル | 30品種の自動識別 |
| NG画像生成 | VLM(オフライン) | 新品種追加時のデータ生成 |
| アノテーション | VLM(オフライン) | ラベリング工数の削減 |
この構成では、ルールベースが「位置決め+寸法」、CNNが「欠陥検出+品種判別」、VLMが「データ準備」を担当します。各手法の強みを活かし、弱みを補い合う設計です。
設計例:食品包装の検査
タクトタイム:200ms / 品種数:100以上 / 検査内容:印字+異物+シール
| 検査項目 | 手法 | 理由 |
|---|---|---|
| パッケージ位置決め | エッジベースマッチング(ルールベース) | 照明変動に強い |
| シール幅・位置 | エッジ検出(ルールベース) | 寸法計測。閾値判定 |
| 異物検出 | CNN(異常検知モデル) | 異物の形状が不定。良品学習で対応 |
| 賞味期限の印字検証 | VLMベースOCR → CNN蒸留 | 多フォント・傾き対応 |
| 新品種の検査設定 | VLM(オフライン) | テキストで検査基準を定義 |
まとめ:検査課題から逆算して手法を選ぶ
画像処理の手法選定で最も重要なのは、「何を検査するか」から逆算することです。寸法測定ならルールベース。不定形欠陥ならCNN。多品種のデータ準備ならVLM。この判断を間違えると、過剰なコストをかけて精度が出ない、あるいは安く済ませようとして検査が破綻するという結果になります。
本シリーズ全3回を通じて、画像処理の基礎から最新のAI活用まで解説しました。実際の検査課題に対して最適な構成を設計するには、検査対象のサンプル画像をもとに評価するのが最も確実です。