品種数、欠陥タイプ、タクトタイム。3つの条件から、VLM・Deep Learning・ルールベースのどれを選ぶか判断できます。元キーエンス技術者が両技術の強み・弱みを比較表で整理しました。
結論:VLMは「教師役」、Deep Learningは「検査役」。組み合わせて使うのが正解です。
VLM(Vision Language Model)は良品画像からNG画像を自動生成し、アノテーションも同時に済ませます。Deep Learning(CNN)は、そのデータを使って高速・高精度に検査します(合成データ活用の詳細)。「どちらが優れているか」ではなく「どう組み合わせるか」で検査AIの費用対効果が決まります。
VLM(Vision Language Model)は、画像と言語を同時に理解するAIモデルです。画像を見て「何が写っているか」を言語で説明でき、逆に言語の指示から画像を解釈・生成できます。
外観検査におけるVLMの役割は、検査そのものではありません。良品画像から欠陥パターンを自動生成し、CNNの学習データを作る「教師役」です。
従来のDeep Learning検査では、品種ごとに数百〜数千枚のNG画像を集める必要がありました。不良率0.1%以下のラインでは、十分なNG画像を揃えるのに数か月かかります。VLMは、良品画像数枚から多様な欠陥パターン(キズ、打痕、変色、異物など)を自動生成し、この待ち時間をゼロにします。
Deep Learning、特にCNN(畳み込みニューラルネットワーク)は、大量の画像データからパターンを学習して判定するAIです。外観検査ではOK/NG判定や欠陥分類に使います。
強みは推論速度と既知欠陥の検出精度です。学習済みモデルは数十msで判定が完了し、十分なデータがあれば検出率99%以上に達します。タクトタイム100ms以下の高速ラインでも対応できます(推論最適化の実装はTensorRTで外観検査の推論速度を10倍にする方法を参照)。
弱みは学習データの収集コストです。品種ごとに数百〜数千枚のラベル付きデータが必要で、50品種のラインでは数万枚(参考:多品種アノテーション工数を90%削減する方法)。アノテーション(ラベル付け)は1枚あたり数分〜数十分かかり、外注すれば数百万円規模のコストになります(参考:アノテーションコスト削減|VLMで工数90%減)。
ルールベースは、閾値やフィルタなどの数値パラメータを人間が設定して検査する従来型の手法です。学習データは不要で、判定ロジックが明確なため品質監査にも対応しやすいのが特徴です。
推論速度は3手法で最速(数ms)。寸法測定ではサブピクセル精度が出ます。一方で品種が増えると品種ごとにパラメータ調整が必要になり、50品種を超えるラインでは専任の担当者が必要になることもあります。
| 比較項目 | ルールベース | Deep Learning (CNN) | VLM |
|---|---|---|---|
| 学習データ | 不要 | 数百〜数千枚/品種 | 良品数枚からNG画像を自動生成 |
| 推論速度 | 最速(数ms) | 高速(数十ms) | 低速(数百ms〜秒) |
| 多品種対応 | 品種ごとに設定 | 品種ごとに学習 | 品種追加コストが低い |
| 既知欠陥の精度 | 中〜高 | 最高(99%以上) | 高 |
| 未知欠陥 | 検出不可 | 検出困難 | 対応可能 |
| 文字認識(OCR) | 困難 | 個別開発が必要 | 標準で対応 |
| 寸法測定 | サブピクセル精度 | 中精度 | 不向き |
| 導入コスト | 低い | 高い(品種数に比例) | 低い(品種数に依存しない) |
| 判定根拠の説明 | ロジックが明確 | ブラックボックス | 言語で説明可能 |
VLMの推論速度は数百ms〜数秒です。タクトタイム100ms以下の高速ラインでは間に合いません。そのためVLMを検査そのものに使うのではなく、CNNの学習データを生成する「教師役」として使うのが実用的な構成です。
具体的な流れは以下のとおりです。
この構成の利点は、NG画像の収集待ちがなくなることです。不良率0.1%以下のラインでも、数日以内にCNNの学習を開始できます。
生成されるNG画像は、欠陥の位置・サイズ・深刻度を細かく制御できます。「キズの長さ0.5mm〜3mm」「打痕の深さ浅〜深」といった条件を指定し、バリエーションを網羅的に生成するため、CNNが苦手とするレアケースの検出感度も強化できます。
検査手法の選定は、以下の3条件で判断できます。
実際の製造ラインでは、1つの手法だけで全検査項目をカバーすることは稀です。以下は、多品種ラインで採用される典型的なハイブリッド構成です。
この構成で、多品種ラインの検査立ち上げ期間は従来の数か月から数日に短縮できます。
| コスト項目 | DL単体 | VLM+DL ハイブリッド |
|---|---|---|
| 初期導入(ハードウェア・構築) | 300〜500万円 | 350〜550万円 |
| 学習データ収集(10品種) | 200〜500万円 | 10〜30万円 |
| 品種追加(1品種あたり) | 20〜50万円 | 1〜3万円 |
| 年間運用 | 100〜200万円 | 80〜150万円 |
| 10品種・3年間の総コスト | 1,000〜1,800万円 | 520〜880万円 |
― 注意 上記コストはあくまで一般的な参考レンジです。実際の費用は検査対象・品種数・設備規模・要件により大幅に変動します。正確な見積もりは個別ヒアリング後にご提案します。
初期導入費はハイブリッド構成のほうが50〜100万円ほど高くなりますが、学習データの収集コストが1/10以下になるため、品種数が増えるほど差が開きます。10品種・3年間で見ると、総コストはおよそ半分です。
「PoCで精度99%が出たのに本番で下がった」原因の大半は、PoCと本番で照明条件・ワーク位置決め・素材ロットが異なること(PoC設計の詳細はAI外観検査のPoC完全ガイド|成功の5条件を参照)。AIモデルの性能より、撮像環境の安定性が精度の8割を決めます。検査精度を上げたいなら、まず照明と治具を見直してください。
VLMは万能ではありません。以下のケースでは導入メリットが小さいか、別の手法が適しています。
VLMとDeep Learningを組み合わせた検査システムの導入は、以下の5ステップで進めます。
検査対象の品種数、欠陥の種類、タクトタイム、許容される見逃し率・過検出率を整理します。この段階で「ルールベースだけで済む項目」と「AIが必要な項目」を切り分けておくと、後工程の無駄がなくなります。
カメラ・照明・治具を選定し、安定した撮像環境を作ります。AIの検出精度は撮像環境で8割決まります。照明の角度、ワークの位置決め、背景の統一を徹底してください。この工程を軽視すると、どんなAIモデルを使っても精度が出ません。
ステップ2で撮影した良品画像をVLMに入力し、NG画像を自動生成します。キズ、打痕、変色、異物、欠品など、想定される欠陥パターンを網羅的に生成します。アノテーション情報(欠陥の位置・種類・サイズ)も同時に生成されるため、手作業のラベル付けは不要です。
生成したNG画像と良品画像でCNNモデルを学習させます。初期モデルの精度検証には、実ラインから抜き取った数十〜数百枚の実画像を使います。合成データだけでなく実データも混ぜることで、精度がさらに向上します。合成データ70%、実データ30%の比率が目安です。
検証済みのCNNモデルをエッジデバイス(Jetson Orin等)に実装し、ラインに組み込みます。初期は「AIと目視の並行運用」で判定結果を照合し、閾値を微調整します。安定稼働を確認したら、AI単独運用に切り替えます。
全体で8〜15週間。従来のDeep Learning単体導入では、NG画像の収集だけで数か月かかることを考えると、大幅な期間短縮です。
既知の欠陥検出ではDeep Learning(CNN)が高精度です。十分な学習データがあればCNNの検出率は99%以上に達します。VLMは良品画像からNG画像を自動生成する「教師役」として使い、本番検査はCNNで実行するハイブリッド構成が実用的です。
技術的には可能ですが、推論速度がネックです。VLM単体の推論は数百ms〜数秒かかるため、タクトタイム100ms以下の高速ラインでは間に合いません。VLMでNG画像を生成し、CNNで高速検査する構成が現実的です。
NG画像生成(学習フェーズ)にはGPUが必要です。NVIDIA T4以上を推奨します。ただし本番検査をCNNで実行する場合、推論側はJetson Orin等のエッジデバイスで動作します。クラウドGPUで生成→エッジで推論という構成が一般的です。
多品種ではVLMが有利です。Deep Learningは品種ごとに数百〜数千枚の学習データが必要で、品種が増えるほどデータ収集コストが膨らみます。VLMは良品画像数枚からNG画像を自動生成できるため、品種追加のコストが低く抑えられます。
初期導入費はハイブリッド構成のほうが50〜100万円ほど高くなります。一方で、学習データ収集コストが1/10以下になるため、品種数が10品種・3年間の総コストではDL単体の約半分になります。品種数が多いほど差が開く構造です。
条件次第で十分に検出できます。VLMが生成するNG画像は欠陥の位置・サイズ・深刻度を細かく制御できるため、実欠陥のバリエーションを網羅できれば検出感度はDL単体と同等以上に達します。ただし合成画像のみでの学習は過学習リスクがあるため、実NG画像が数枚でもあれば併用するのが原則です。
PoCの段階では、まず本番のタクトタイム要件と品種数を整理してください。品種数が5以下ならDL単体、6品種以上ならVLM+DLハイブリッドのPoCを推奨します。PoCで最も多い失敗は撮像環境がPoCと本番で違うことなので、構成選定よりも照明・カメラ・治具を本番と揃えることが先です。
本記事の技術的記述は、以下の一次文献および公的統計を参考にしています。
製造ラインで培ったVLM・エッジAI・光学設計のノウハウは、物流の入荷検品・OCR・倉庫オペにも応用できます。