AI画像処理と従来画像処理
ホーム > ブログ > AI vs 従来画像処理

AI画像処理と従来画像処理の使い分け|Deep Learning・VLMの適用判断

「AIを入れれば検査が良くなる」わけではない。ルールベース・Deep Learning・VLMの3層構成を理解し、検査課題ごとに最適な手法を選ぶための判断基準を、多数の導入現場の知見をもとに解説する。

検査構成の相談 →

画像処理シリーズ|全3回

結論:「全部AI」も「全部ルールベース」も間違い

最適な検査システムは、ルールベース画像処理とAIを適材適所で組み合わせた「ハイブリッド構成」です。ルールベースが得意な検査にAIを使うとコストと複雑さが増すだけで精度は上がりません。逆に、AIが得意な検査をルールベースで無理に対応しようとすると、パラメータ調整の泥沼にはまります。

本記事では、ルールベース・Deep Learning・VLMの3つの手法を比較し、「どの検査にどの手法を使うべきか」の判断基準を示します。

3層構成 ── ルールベース・Deep Learning・VLM

第1層:ルールベース画像処理

第1回・第2回で解説した二値化、エッジ検出、パターンマッチング、ブロブ解析などの手法です。人間がルール(閾値、フィルタ、テンプレート)を設計し、画像を処理します。

強み:

弱み:

第2層:Deep Learning(CNN)

畳み込みニューラルネットワーク(CNN)を使い、大量の画像データから欠陥の特徴を自動学習する手法です。分類(OK/NG)、物体検出(欠陥の位置特定)、セグメンテーション(欠陥領域の画素単位の特定)の3段階があります。

強み:

弱み:

第3層:VLM(Vision Language Model)

VLM(視覚言語モデル)は、画像とテキストを同時に理解するAIです。「この画像にキズはありますか?」のようにテキストで検査指示を与え、画像を分析させることができます。

重要な位置づけ:VLMは「教師役」であり、本番検査はCNNまたはルールベースで実行します。

VLMの役割:

本番検査にVLMを使わない理由:推論速度が遅い(数秒/枚)、GPU/クラウドのコストが高い、ハルシネーション(誤った回答を自信を持って返す)のリスクがある。検査ラインの高速・高信頼性の要件にはCNNやルールベースが適しています。

現場Tips:VLMの「教師役」としての価値

多品種対応の検査システムでは、品種ごとにNG画像を収集してアノテーションする工数が最大のボトルネックになります。VLMを教師役として活用することで、この工数を劇的に削減できます。VLMが生成・ラベリングしたデータでCNNを学習し、本番検査はCNNが高速に実行する。この「VLM→CNN」のパイプラインが、現時点で最も費用対効果が高い構成です。

ルールベース×AIの最適構成を無料提案

検査対象のサンプル画像をお送りください。最適な手法の組み合わせと想定精度を評価します。

無料サンプル検証 →

判断基準:3つの軸で最適手法を選ぶ

軸1:タクトタイム

タクトタイム推奨手法理由
100ms以下ルールベースCPUだけで高速処理。GPU不要
100ms〜1秒ルールベース + CNNTensorRT最適化でCNNも高速推論可能
1秒以上CNN中心精度重視の構成が可能

軸2:欠陥の定義しやすさ

欠陥の性質推奨手法具体例
ルールで明確に定義可能ルールベース寸法の公差外れ、位置ズレ、欠品、色の数値範囲
「見ればわかるが言語化が難しい」CNN(Deep Learning)キズ、汚れ、色ムラ、変形、異物
検査基準が頻繁に変わるCNN + VLM(教師役)多品種の新品種追加、季節による基準変更

軸3:品種数

品種数推奨手法理由
1〜5品種ルールベース品種ごとのパラメータ管理が容易
5〜50品種ルールベース + CNN共通検査はルールベース、品種固有はCNN
50品種以上CNN + VLM(教師役)品種ごとの再学習をVLMで自動化

ルールベースが勝つケース

寸法計測

外形寸法、穴径、ピッチ間隔などの計測は、エッジ検出+トレンドエッジで0.01画素単位の精度が出ます。Deep Learningはピクセル単位の分類しかできないため、サブピクセル精度の寸法計測にはルールベースが圧倒的に有利です。処理速度も数ms。

位置合わせ(アライメント)

パターンマッチングによる位置決めは、処理速度・精度・安定性のすべてでルールベースが優れています。エッジベースマッチングなら照明変動にも強く、学習データも不要です。検査フローの「起点」となる位置決めは、信頼性が最優先であり、ルールベースの一択です。

色判定

OK/NGの境界を色空間(HSV等)の数値で定義できる場合、ルールベースが最適です。色の数値を閾値で判定するだけなので高速であり、判定根拠も明確です。「この色は合格範囲か」を数値で説明する必要がある品質保証の現場では、AIのブラックボックス性が問題になります。

Deep Learning(CNN)が勝つケース

不定形欠陥の検出

キズ・汚れ・変形など、形状やサイズが不定な欠陥はCNNの独壇場です。ルールベースでは「どんな形のキズを検出するか」を事前に定義する必要がありますが、製造現場のキズは形状もサイズも予測不可能です。CNNは大量のNG画像から「キズとはこういうもの」を自動学習するため、未知のパターンにも対応できます。

微妙な外観差異の判定

めっきの色ムラ、樹脂成形品のフローマーク、食品の焼きムラなど、OK/NGの境界が微妙で人間でも判断に迷うケースがあります。こうしたグレーゾーンの判定は、大量の教師データで学習したCNNが人間以上の安定性を発揮します。検査員の個人差やコンディションによるばらつきも解消されます。

複合判定

複数の欠陥種類を同時に検出・分類する場合、ルールベースでは欠陥ごとにパラメータを個別設計する必要があり、組み合わせが爆発的に増えます。CNNなら1つのモデルで複数の欠陥種類を同時に検出・分類でき、メンテナンス性が格段に向上します。

現場Tips:NG画像が足りないときのアプローチ

Deep Learningの最大のハードルは「NG画像の収集」です。製造業では不良品の発生率が低い(0.1%以下)場合が多く、十分なNG画像を集められないことがあります。この場合、①良品画像のみで学習する異常検知アプローチ、②VLMによるNG画像の自動生成、③データ拡張(回転・反転・明るさ変動)を組み合わせることで、少ないNG画像でもモデルを構築できます。

VLMの役割 ── 本番検査ではなく「裏方」で威力を発揮

NG画像の自動生成

良品画像をVLMに入力し、「この表面にキズを加えた画像を生成して」と指示することで、リアルなNG画像を大量に生成できます。品種ごとにNG画像を人手で収集する必要がなくなり、多品種対応の最大ボトルネックが解消されます。生成したNG画像は人間がレビューし、品質が十分なものだけをCNNの学習データに使います。

アノテーションの自動化

CNNの学習には「どこに欠陥があるか」のラベル情報(アノテーション)が必要です。従来は人間が1枚ずつ手作業でラベリングしていましたが、VLMに「この画像のキズの位置をバウンディングボックスで示して」と指示すれば、自動でアノテーションできます。多数の導入現場での実績では、人手のアノテーション工数を90%削減しています。

ラベル・文字認識(OCR)

食品包装の賞味期限、医薬品のロット番号、電子部品の型番など、多品種・多フォント・多言語のOCRはVLMが従来OCRを大きく上回ります。ただし、処理速度の制約から、ライン速度が速い場合はVLMで学習したCNNベースのOCRモデルに蒸留して本番運用するケースもあります。

ハイブリッド構成の設計例

設計例:自動車部品の外観検査

タクトタイム:500ms / 品種数:30 / 検査内容:寸法+外観

検査項目手法理由
ワーク位置決めパターンマッチング(ルールベース)高速・高精度・安定
外形寸法測定エッジ検出+トレンドエッジ(ルールベース)サブピクセル精度が必要
キズ・打痕検出CNN(YOLOv8 + TensorRT)不定形欠陥。ルールで定義不可
品種判別CNN分類モデル30品種の自動識別
NG画像生成VLM(オフライン)新品種追加時のデータ生成
アノテーションVLM(オフライン)ラベリング工数の削減

この構成では、ルールベースが「位置決め+寸法」、CNNが「欠陥検出+品種判別」、VLMが「データ準備」を担当します。各手法の強みを活かし、弱みを補い合う設計です。

設計例:食品包装の検査

タクトタイム:200ms / 品種数:100以上 / 検査内容:印字+異物+シール

検査項目手法理由
パッケージ位置決めエッジベースマッチング(ルールベース)照明変動に強い
シール幅・位置エッジ検出(ルールベース)寸法計測。閾値判定
異物検出CNN(異常検知モデル)異物の形状が不定。良品学習で対応
賞味期限の印字検証VLMベースOCR → CNN蒸留多フォント・傾き対応
新品種の検査設定VLM(オフライン)テキストで検査基準を定義

まとめ:検査課題から逆算して手法を選ぶ

画像処理の手法選定で最も重要なのは、「何を検査するか」から逆算することです。寸法測定ならルールベース。不定形欠陥ならCNN。多品種のデータ準備ならVLM。この判断を間違えると、過剰なコストをかけて精度が出ない、あるいは安く済ませようとして検査が破綻するという結果になります。

本シリーズ全3回を通じて、画像処理の基礎から最新のAI活用まで解説しました。実際の検査課題に対して最適な構成を設計するには、検査対象のサンプル画像をもとに評価するのが最も確実です。

シリーズ記事
第1回
画像処理入門|製造業エンジニアが知るべき基礎知識
第2回
検査で使う画像処理|エッジ検出・パターンマッチング・ブロブ解析
関連記事
VLMとは?従来のAI外観検査との違いを徹底比較
関連記事
画像処理×AIのハイブリッド検査体制
関連記事
外観検査の過検出を減らす方法|原因別5つの対策

監修:嶋野(元キーエンス画像処理部門 開発)

キーエンス画像処理部門での実務経験をもとに、製造業の外観検査・画像処理に関する技術監修を行っている。会社概要 →

よくある質問

「どちらか一方」ではなく、検査内容によって使い分けるのが正解です。寸法測定・位置決め・色判定はルールベースが最適。不定形欠陥(キズ・汚れ・色ムラ)の検出はDeep Learningが得意です。多くの現場では両方を組み合わせるハイブリッド構成が最も費用対効果が高くなります。
VLMは推論速度やハードウェアコストの制約から、現時点ではリアルタイムのライン検査には不向きです。VLMの強みは「教師役」としての活用です。NG画像の自動生成、アノテーションの自動化、検査基準のテキスト定義など、検査システムの構築・運用フェーズで威力を発揮します。本番検査はCNNやルールベースで実行します。
欠陥の種類やバリエーションにもよりますが、一般的には1欠陥カテゴリあたり100〜500枚のNG画像が必要です。NG画像が少ない場合は、VLMによるNG画像生成やデータ拡張で補うことができます。良品画像のみで学習する異常検知アプローチも選択肢の一つです。
ルールベースのみの構成にDeep Learningを追加すると、GPU搭載PC等のコストが加わります。ただしJetson等のエッジAIデバイスならハードウェアコストは数十万円に抑えられます。多品種対応や不定形欠陥の検出で検査員を削減できるため、ROIで見れば1〜2年で投資回収できるケースが大半です。

検査の最適構成を無料で提案

サンプル画像をお送りいただければ、ルールベース・AI・VLMの最適な組み合わせを評価します。

無料相談 →