AI画像処理と従来画像処理の使い分け｜Deep Learning・VLMの適用判断

Q: ハイブリッド構成のコストはどのくらい？

ルールベースのみの構成と比較すると、Deep Learningを追加することでGPU搭載PCや学習環境のコストが加わります。ただし、Jetson等のエッジAIデバイスを使えばハードウェアコストは数十万円に抑えられます。多品種対応や不定形欠陥の検出で検査員を削減できるため、ROIで見れば1〜2年で投資回収できるケースが大半です。

― 03 / 構成

3層構成 ── ルールベース・Deep Learning・VLM

ルールベース画像処理、Deep Learning CNN、VLM教師役の3層で検査精度と柔軟性を両立する階層構成図 — 図1. 外観検査3層ハイブリッド構成 -- 各層の役割と速度帯を明確に分離

第1層：ルールベース画像処理

第1回・第2回で解説した二値化、エッジ検出、パターンマッチング、ブロブ解析などの手法です。人間がルール（閾値、フィルタ、テンプレート）を設計し、画像を処理します。

強み：

処理速度が非常に速い（msオーダー）。高速タクトタイムに対応
結果の根拠が明確。「なぜNGと判定したか」を数値で説明できる
学習データが不要。テンプレート登録と閾値設定で運用開始
GPUなどの高価なハードウェアが不要。CPUだけで動作

弱み：

「ルールで定義できる欠陥」しか検出できない。不定形欠陥に弱い
品種が増えるとパラメータの管理が煩雑化する
照明条件や外観の微妙な変動に対してパラメータの再調整が必要

第2層：Deep Learning（CNN）

畳み込みニューラルネットワーク（CNN）を使い、大量の画像データから欠陥の特徴を自動学習する手法です。分類（OK/NG）、物体検出（欠陥の位置特定）、セグメンテーション（欠陥領域の画素単位の特定）の3段階があります。

強み：

不定形欠陥（キズ、汚れ、色ムラ、変形）を高精度に検出
人間が定義しにくい「微妙な違い」を学習で捉える
TensorRT等で最適化すれば、エッジAIデバイス（Jetson等）でリアルタイム推論が可能

弱み：

学習データ（特にNG画像）が必要。欠陥が稀少な場合はデータ収集が困難
「なぜNGと判定したか」の説明が難しい（ブラックボックス性）
新しい欠陥パターンが出現すると再学習が必要
GPU搭載ハードウェアが必要（Jetson等のエッジデバイスで対応可能）

第3層：VLM（Vision Language Model）

VLM（視覚言語モデル）は、画像とテキストを同時に理解するAIです。「この画像にキズはありますか？」のようにテキストで検査指示を与え、画像を分析させることができます。

重要な位置づけ：VLMは「教師役」であり、本番検査はCNNまたはルールベースで実行します。

VLMの役割：

NG画像の自動生成：良品画像をもとに、欠陥を含む画像を生成。学習データ不足を解決
アノテーションの自動化：画像中の欠陥位置を自動検出しラベリング。人手のアノテーション工数を大幅削減
検査基準のテキスト定義：「表面にφ0.5mm以上のピンホールがあればNG」のように自然言語で検査基準を記述
ラベル・文字認識（OCR）：従来OCRでは対応が難しかった多フォント・多言語・レイアウト変動にも柔軟に対応

本番検査にVLMを使わない理由：推論速度が遅い（数秒/枚）、GPU/クラウドのコストが高い、ハルシネーション（誤った回答を自信を持って返す）のリスクがある。検査ラインの高速・高信頼性の要件にはCNNやルールベースが適しています。

現場Tips：VLMの「教師役」としての価値
多品種対応の検査システムでは、品種ごとにNG画像を収集してアノテーションする工数が最大のボトルネックになります。VLMを教師役として活用することで、この工数を劇的に削減できます。VLMが生成・ラベリングしたデータでCNNを学習し、本番検査はCNNが高速に実行する。この「VLM→CNN」のパイプラインが、現時点で最も費用対効果が高い構成です。

― 04 / 判断基準

判断基準：3つの軸で最適手法を選ぶ

タクトタイム、欠陥の定義しやすさ、品種数の3軸で最適な検査手法を選択するガイド — 図2. 最適手法を選ぶ3つの判断軸 -- タクトタイム、欠陥の性質、品種数を掛け合わせて逆算

軸1：タクトタイム

タクトタイム	推奨手法	理由
100ms以下	ルールベース	CPUだけで高速処理。GPU不要
100ms〜1秒	ルールベース + CNN	TensorRT最適化でCNNも高速推論可能
1秒以上	CNN中心	精度重視の構成が可能

軸2：欠陥の定義しやすさ

欠陥の性質	推奨手法	具体例
ルールで明確に定義可能	ルールベース	寸法の公差外れ、位置ズレ、欠品、色の数値範囲
「見ればわかるが言語化が難しい」	CNN（Deep Learning）	キズ、汚れ、色ムラ、変形、異物
検査基準が頻繁に変わる	CNN + VLM（教師役）	多品種の新品種追加、季節による基準変更

軸3：品種数

品種数	推奨手法	理由
1〜5品種	ルールベース	品種ごとのパラメータ管理が容易
5〜50品種	ルールベース + CNN	共通検査はルールベース、品種固有はCNN
50品種以上	CNN + VLM（教師役）	品種ごとの再学習をVLMで自動化

― 05 / ルールベース

ルールベースが勝つケース

寸法計測

外形寸法、穴径、ピッチ間隔などの計測は、エッジ検出＋トレンドエッジで0.01画素単位の精度が出ます。Deep Learningはピクセル単位の分類しかできないため、サブピクセル精度の寸法計測にはルールベースが圧倒的に有利です。処理速度も数ms。

位置合わせ（アライメント）

パターンマッチングによる位置決めは、処理速度・精度・安定性のすべてでルールベースが優れています。エッジベースマッチングなら照明変動にも強く、学習データも不要です。検査フローの「起点」となる位置決めは、信頼性が最優先であり、ルールベースの一択です。

色判定

OK/NGの境界を色空間（HSV等）の数値で定義できる場合、ルールベースが最適です。色の数値を閾値で判定するだけなので高速であり、判定根拠も明確です。「この色は合格範囲か」を数値で説明する必要がある品質保証の現場では、AIのブラックボックス性が問題になります。

― 06 / Deep Learning

Deep Learning（CNN）が勝つケース

不定形欠陥の検出

キズ・汚れ・変形など、形状やサイズが不定な欠陥はCNNの独壇場です。ルールベースでは「どんな形のキズを検出するか」を事前に定義する必要がありますが、製造現場のキズは形状もサイズも予測不可能です。CNNは大量のNG画像から「キズとはこういうもの」を自動学習するため、未知のパターンにも対応できます。

微妙な外観差異の判定

めっきの色ムラ、樹脂成形品のフローマーク、食品の焼きムラなど、OK/NGの境界が微妙で人間でも判断に迷うケースがあります。こうしたグレーゾーンの判定は、大量の教師データで学習したCNNが人間以上の安定性を発揮します。検査員の個人差やコンディションによるばらつきも解消されます。

複合判定

複数の欠陥種類を同時に検出・分類する場合、ルールベースでは欠陥ごとにパラメータを個別設計する必要があり、組み合わせが爆発的に増えます。CNNなら1つのモデルで複数の欠陥種類を同時に検出・分類でき、メンテナンス性が格段に向上します。

現場Tips：NG画像が足りないときのアプローチ
Deep Learningの最大のハードルは「NG画像の収集」です。製造業では不良品の発生率が低い（0.1%以下）場合が多く、十分なNG画像を集められないことがあります。この場合、(1)良品画像のみで学習する異常検知アプローチ、(2)VLMによるNG画像の自動生成、(3)データ拡張（回転・反転・明るさ変動）を組み合わせることで、少ないNG画像でもモデルを構築できます。

― 07 / VLM

VLMの役割 ── 本番検査ではなく「裏方」で威力を発揮

NG画像の自動生成

良品画像をVLMに入力し、「この表面にキズを加えた画像を生成して」と指示することで、リアルなNG画像を大量に生成できます。品種ごとにNG画像を人手で収集する必要がなくなり、多品種対応の最大ボトルネックが解消されます。生成したNG画像は人間がレビューし、品質が十分なものだけをCNNの学習データに使います。

アノテーションの自動化

CNNの学習には「どこに欠陥があるか」のラベル情報（アノテーション）が必要です。従来は人間が1枚ずつ手作業でラベリングしていましたが、VLMに「この画像のキズの位置をバウンディングボックスで示して」と指示すれば、自動でアノテーションできます。多数の導入現場での実績では、人手のアノテーション工数を90%削減しています。

ラベル・文字認識（OCR）

食品包装の賞味期限、医薬品のロット番号、電子部品の型番など、多品種・多フォント・多言語のOCRはVLMが従来OCRを大きく上回ります。ただし、処理速度の制約から、ライン速度が速い場合はVLMで学習したCNNベースのOCRモデルに蒸留して本番運用するケースもあります。

― 08 / 設計例

ハイブリッド構成の設計例

設計例：自動車部品の外観検査

タクトタイム：500ms / 品種数：30 / 検査内容：寸法＋外観

検査項目	手法	理由
ワーク位置決め	パターンマッチング（ルールベース）	高速・高精度・安定
外形寸法測定	エッジ検出＋トレンドエッジ（ルールベース）	サブピクセル精度が必要
キズ・打痕検出	CNN（YOLOv8 + TensorRT）	不定形欠陥。ルールで定義不可
品種判別	CNN分類モデル	30品種の自動識別
NG画像生成	VLM（オフライン）	新品種追加時のデータ生成
アノテーション	VLM（オフライン）	ラベリング工数の削減

この構成では、ルールベースが「位置決め＋寸法」、CNNが「欠陥検出＋品種判別」、VLMが「データ準備」を担当します。各手法の強みを活かし、弱みを補い合う設計です。

設計例：食品包装の検査

タクトタイム：200ms / 品種数：100以上 / 検査内容：印字＋異物＋シール

検査項目	手法	理由
パッケージ位置決め	エッジベースマッチング（ルールベース）	照明変動に強い
シール幅・位置	エッジ検出（ルールベース）	寸法計測。閾値判定
異物検出	CNN（異常検知モデル）	異物の形状が不定。良品学習で対応
賞味期限の印字検証	VLMベースOCR → CNN蒸留	多フォント・傾き対応
新品種の検査設定	VLM（オフライン）	テキストで検査基準を定義

― 09 / まとめ

まとめ：検査課題から逆算して手法を選ぶ

画像処理の手法選定で最も重要なのは、「何を検査するか」から逆算することです。寸法測定ならルールベース。不定形欠陥ならCNN。多品種のデータ準備ならVLM。この判断を間違えると、過剰なコストをかけて精度が出ない、あるいは安く済ませようとして検査が破綻するという結果になります。

本シリーズ全3回を通じて、画像処理の基礎から最新のAI活用まで解説しました。実際の検査課題に対して最適な構成を設計するには、検査対象のサンプル画像をもとに評価するのが最も確実です。

SERIES

第1回

画像処理入門｜製造業エンジニアが知るべき基礎知識

第2回

検査で使う画像処理｜エッジ検出・パターンマッチング・ブロブ解析

VLMとは？従来のAI外観検査との違いを徹底比較

画像処理×AIのハイブリッド検査体制

外観検査の過検出を減らす方法｜原因別5つの対策

― 10 / FAQ

よくある質問

ルールベース画像処理とAIはどちらが良い？

「どちらか一方」ではなく、検査内容によって使い分けるのが正解です。寸法測定・位置決め・色判定はルールベースが最適。不定形欠陥（キズ・汚れ・色ムラ）の検出はDeep Learningが得意です。多くの現場では両方を組み合わせるハイブリッド構成が最も費用対効果が高くなります。

VLMは本番の検査ラインで使える？

VLMは推論速度やハードウェアコストの制約から、現時点ではリアルタイムのライン検査には不向きです。VLMの強みは「教師役」としての活用です。NG画像の自動生成、アノテーションの自動化、検査基準のテキスト定義など、検査システムの構築・運用フェーズで威力を発揮します。本番検査はCNNやルールベースで実行します。

Deep Learningの導入に必要なNG画像の枚数は？

欠陥の種類やバリエーションにもよりますが、一般的には1欠陥カテゴリあたり100〜500枚のNG画像が必要です。NG画像が少ない場合は、VLMによるNG画像生成やデータ拡張で補うことができます。良品画像のみで学習する異常検知アプローチも選択肢の一つです。

ハイブリッド構成のコストはどのくらい？

ルールベースのみの構成にDeep Learningを追加すると、GPU搭載PC等のコストが加わります。ただしJetson等のエッジAIデバイスならハードウェアコストは数十万円に抑えられます。多品種対応や不定形欠陥の検出で検査員を削減できるため、ROIで見れば1〜2年で投資回収できるケースが大半です。

― 注意 上記コストはあくまで一般的な参考レンジです。実際の費用は検査対象・品種数・設備規模・要件により大幅に変動します。正確な見積もりは個別ヒアリング後にご提案します。

AI画像処理と従来画像処理の使い分け
Deep Learning・VLMの適用判断

画像処理シリーズ｜全3回

結論：「全部AI」も「全部ルールベース」も間違い