VLMとDeep Learningの違い｜外観検査で使い分ける判断基準

― 01 / VLMとは

VLMとは何か

結論：VLMは「教師役」、Deep Learningは「検査役」。組み合わせて使うのが正解です。

VLM（Vision Language Model）は良品画像からNG画像を自動生成し、アノテーションも同時に済ませます。Deep Learning（CNN）は、そのデータを使って高速・高精度に検査します（合成データ活用の詳細）。「どちらが優れているか」ではなく「どう組み合わせるか」で検査AIの費用対効果が決まります。

VLM（Vision Language Model）は、画像と言語を同時に理解するAIモデルです。画像を見て「何が写っているか」を言語で説明でき、逆に言語の指示から画像を解釈・生成できます。

外観検査におけるVLMの役割は、検査そのものではありません。良品画像から欠陥パターンを自動生成し、CNNの学習データを作る「教師役」です。

従来のDeep Learning検査では、品種ごとに数百〜数千枚のNG画像を集める必要がありました。不良率0.1%以下のラインでは、十分なNG画像を揃えるのに数か月かかります。VLMは、良品画像数枚から多様な欠陥パターン（キズ、打痕、変色、異物など）を自動生成し、この待ち時間をゼロにします。

― 02 / Deep Learning

Deep Learning（CNN）とは何か

Deep Learning、特にCNN（畳み込みニューラルネットワーク）は、大量の画像データからパターンを学習して判定するAIです。外観検査ではOK/NG判定や欠陥分類に使います。

強みは推論速度と既知欠陥の検出精度です。学習済みモデルは数十msで判定が完了し、十分なデータがあれば検出率99%以上に達します。タクトタイム100ms以下の高速ラインでも対応できます（推論最適化の実装はTensorRTで外観検査の推論速度を10倍にする方法を参照）。

弱みは学習データの収集コストです。品種ごとに数百〜数千枚のラベル付きデータが必要で、50品種のラインでは数万枚（参考：多品種アノテーション工数を90%削減する方法）。アノテーション（ラベル付け）は1枚あたり数分〜数十分かかり、外注すれば数百万円規模のコストになります（参考：アノテーションコスト削減｜VLMで工数90%減）。

― 03 / ルールベース

ルールベース検査とは何か

ルールベースは、閾値やフィルタなどの数値パラメータを人間が設定して検査する従来型の手法です。学習データは不要で、判定ロジックが明確なため品質監査にも対応しやすいのが特徴です。

推論速度は3手法で最速（数ms）。寸法測定ではサブピクセル精度が出ます。一方で品種が増えると品種ごとにパラメータ調整が必要になり、50品種を超えるラインでは専任の担当者が必要になることもあります。

― 04 / 比較

3手法の比較一覧

比較項目	ルールベース	Deep Learning (CNN)	VLM
学習データ	不要	数百〜数千枚/品種	良品数枚からNG画像を自動生成
推論速度	最速（数ms）	高速（数十ms）	低速（数百ms〜秒）
多品種対応	品種ごとに設定	品種ごとに学習	品種追加コストが低い
既知欠陥の精度	中〜高	最高（99%以上）	高
未知欠陥	検出不可	検出困難	対応可能
文字認識（OCR）	困難	個別開発が必要	標準で対応
寸法測定	サブピクセル精度	中精度	不向き
導入コスト	低い	高い（品種数に比例）	低い（品種数に依存しない）
判定根拠の説明	ロジックが明確	ブラックボックス	言語で説明可能

― 05 / VLMの役割

VLMの役割：検査ではなく「教師」

VLMの推論速度は数百ms〜数秒です。タクトタイム100ms以下の高速ラインでは間に合いません。そのためVLMを検査そのものに使うのではなく、CNNの学習データを生成する「教師役」として使うのが実用的な構成です。

具体的な流れは以下のとおりです。

良品画像の準備：ラインで撮影した良品画像を数枚〜数十枚用意する
VLMによるNG画像生成：良品画像をもとに、キズ・打痕・変色・異物などの欠陥パターンを自動生成する。欠陥の位置・サイズ・種類のメタデータも同時に生成されるため、アノテーション工程が不要になる
CNNの学習：生成したNG画像と良品画像でCNNを学習させる
本番検査：学習済みCNNがライン上で高速に判定（数十ms）

この構成の利点は、NG画像の収集待ちがなくなることです。不良率0.1%以下のラインでも、数日以内にCNNの学習を開始できます。

生成されるNG画像は、欠陥の位置・サイズ・深刻度を細かく制御できます。「キズの長さ0.5mm〜3mm」「打痕の深さ浅〜深」といった条件を指定し、バリエーションを網羅的に生成するため、CNNが苦手とするレアケースの検出感度も強化できます。

― 06 / 判断基準

使い分けの判断基準

検査手法の選定は、以下の3条件で判断できます。

条件1：品種数

単品種〜5品種：Deep Learning単体で十分。品種ごとにNG画像を集める工数は許容範囲内
6〜50品種：VLM＋Deep Learningのハイブリッドが有効。品種追加時のデータ収集コストを抑えられる
50品種以上：VLMによるNG画像生成が必須。品種ごとにデータを集めていては、全品種の学習完了までに年単位の時間がかかる

条件2：欠陥タイプ

寸法（長さ・角度・位置）：ルールベースが最適。サブピクセル精度で測定可能
既知の外観欠陥（キズ・打痕・バリなど）：Deep Learning（CNN）が最高精度
未知の欠陥・異常検知：VLMが対応可能。過去に発生したことのない欠陥パターンも検出できる
文字・バーコード読み取り：VLMが標準対応。個別開発不要

条件3：タクトタイム

30ms以下：ルールベース一択。GPUなしで数msで判定
30〜100ms：Deep Learning（CNN）が対応可能。GPU推論で数十ms
100ms以上：VLMの推論も選択肢に入る。ただし実際にはVLMでNG画像を生成→CNNで高速判定する構成が一般的

― 07 / 構成例

ハイブリッド構成の設計例

実際の製造ラインでは、1つの手法だけで全検査項目をカバーすることは稀です。以下は、多品種ラインで採用される典型的なハイブリッド構成です。

― 多品種ライン向けハイブリッド構成 1次判定（ルールベース）：明らかなOK品を数msで通過させる。寸法測定もここで実行
2次判定（CNN）：グレーゾーンの製品をCNNで詳細判定。VLMが生成したNG画像で学習済み
文字認識（VLM）：ラベル領域の文字・バーコードをVLMで読み取り・照合
品種追加時：VLMで新品種のNG画像を生成→CNNを再学習。数日で検査開始

この構成で、多品種ラインの検査立ち上げ期間は従来の数か月から数日に短縮できます。

― 08 / コスト

コスト比較：DL方式 vs VLM＋DLハイブリッド方式

コスト項目	DL単体	VLM＋DL ハイブリッド
初期導入（ハードウェア・構築）	300〜500万円	350〜550万円
学習データ収集（10品種）	200〜500万円	10〜30万円
品種追加（1品種あたり）	20〜50万円	1〜3万円
年間運用	100〜200万円	80〜150万円
10品種・3年間の総コスト	1,000〜1,800万円	520〜880万円

― 注意 上記コストはあくまで一般的な参考レンジです。実際の費用は検査対象・品種数・設備規模・要件により大幅に変動します。正確な見積もりは個別ヒアリング後にご提案します。

初期導入費はハイブリッド構成のほうが50〜100万円ほど高くなりますが、学習データの収集コストが1/10以下になるため、品種数が増えるほど差が開きます。10品種・3年間で見ると、総コストはおよそ半分です。

Deep Learningでよくある失敗

「PoCで精度99%が出たのに本番で下がった」原因の大半は、PoCと本番で照明条件・ワーク位置決め・素材ロットが異なること（PoC設計の詳細はAI外観検査のPoC完全ガイド｜成功の5条件を参照）。AIモデルの性能より、撮像環境の安定性が精度の8割を決めます。検査精度を上げたいなら、まず照明と治具を見直してください。

― 09 / 非推奨ケース

VLMが向かないケース

VLMは万能ではありません。以下のケースでは導入メリットが小さいか、別の手法が適しています。

タクトタイム30ms以下の高速検査：VLMの推論速度では間に合わない。ルールベースかCNNを使う
寸法公差±0.01mm以下の精密測定：ルールベースのサブピクセル計測が必要
単品種・大量生産で既にNG画像が十分にある：データ収集コストの問題がないため、VLMの強みが活きない
既存のルールベース検査で十分な精度が出ている：変える理由がない

― 10 / 導入ステップ

VLM＋DLハイブリッドの導入ステップ

VLMとDeep Learningを組み合わせた検査システムの導入は、以下の5ステップで進めます。

ステップ1：検査要件の整理（1〜2週間）

検査対象の品種数、欠陥の種類、タクトタイム、許容される見逃し率・過検出率を整理します。この段階で「ルールベースだけで済む項目」と「AIが必要な項目」を切り分けておくと、後工程の無駄がなくなります。

ステップ2：撮像環境の構築（2〜4週間）

カメラ・照明・治具を選定し、安定した撮像環境を作ります。AIの検出精度は撮像環境で8割決まります。照明の角度、ワークの位置決め、背景の統一を徹底してください。この工程を軽視すると、どんなAIモデルを使っても精度が出ません。

ステップ3：VLMによるNG画像生成（1〜2週間）

ステップ2で撮影した良品画像をVLMに入力し、NG画像を自動生成します。キズ、打痕、変色、異物、欠品など、想定される欠陥パターンを網羅的に生成します。アノテーション情報（欠陥の位置・種類・サイズ）も同時に生成されるため、手作業のラベル付けは不要です。

ステップ4：CNNの学習と精度検証（2〜3週間）

生成したNG画像と良品画像でCNNモデルを学習させます。初期モデルの精度検証には、実ラインから抜き取った数十〜数百枚の実画像を使います。合成データだけでなく実データも混ぜることで、精度がさらに向上します。合成データ70%、実データ30%の比率が目安です。

ステップ5：ライン実装と運用開始（2〜4週間）

検証済みのCNNモデルをエッジデバイス（Jetson Orin等）に実装し、ラインに組み込みます。初期は「AIと目視の並行運用」で判定結果を照合し、閾値を微調整します。安定稼働を確認したら、AI単独運用に切り替えます。

全体で8〜15週間。従来のDeep Learning単体導入では、NG画像の収集だけで数か月かかることを考えると、大幅な期間短縮です。

技術解説

VLM（Vision Language Model）による外観検査の仕組み →

外観検査に合成データを使う8つのメリット →

サービス

多品種外観検査AI｜VLMで学習コストを削減 →

― 11 / FAQ

よくあるご質問

VLMとDeep Learningはどちらが精度が高い？

既知の欠陥検出ではDeep Learning（CNN）が高精度です。十分な学習データがあればCNNの検出率は99%以上に達します。VLMは良品画像からNG画像を自動生成する「教師役」として使い、本番検査はCNNで実行するハイブリッド構成が実用的です。

VLMだけで外観検査はできる？

技術的には可能ですが、推論速度がネックです。VLM単体の推論は数百ms〜数秒かかるため、タクトタイム100ms以下の高速ラインでは間に合いません。VLMでNG画像を生成し、CNNで高速検査する構成が現実的です。

VLM導入にGPUは必要？

NG画像生成（学習フェーズ）にはGPUが必要です。NVIDIA T4以上を推奨します。ただし本番検査をCNNで実行する場合、推論側はJetson Orin等のエッジデバイスで動作します。クラウドGPUで生成→エッジで推論という構成が一般的です。

多品種ラインではVLMとDLどちらが有利？

多品種ではVLMが有利です。Deep Learningは品種ごとに数百〜数千枚の学習データが必要で、品種が増えるほどデータ収集コストが膨らみます。VLMは良品画像数枚からNG画像を自動生成できるため、品種追加のコストが低く抑えられます。

ハイブリッド構成の初期費用はDL単体と比べてどうなる？

初期導入費はハイブリッド構成のほうが50〜100万円ほど高くなります。一方で、学習データ収集コストが1/10以下になるため、品種数が10品種・3年間の総コストではDL単体の約半分になります。品種数が多いほど差が開く構造です。

VLMで生成した合成画像で学習したCNNは、実欠陥を本当に検出できる？

条件次第で十分に検出できます。VLMが生成するNG画像は欠陥の位置・サイズ・深刻度を細かく制御できるため、実欠陥のバリエーションを網羅できれば検出感度はDL単体と同等以上に達します。ただし合成画像のみでの学習は過学習リスクがあるため、実NG画像が数枚でもあれば併用するのが原則です。

PoCはVLM＋DLとDL単体、どちらの構成で始めるべき？

PoCの段階では、まず本番のタクトタイム要件と品種数を整理してください。品種数が5以下ならDL単体、6品種以上ならVLM＋DLハイブリッドのPoCを推奨します。PoCで最も多い失敗は撮像環境がPoCと本番で違うことなので、構成選定よりも照明・カメラ・治具を本番と揃えることが先です。

― 12 / 出典

参考文献・出典

本記事の技術的記述は、以下の一次文献および公的統計を参考にしています。

― References

Radford, A., Kim, J. W., Hallacy, C., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. arxiv.org/abs/2103.00020 ── 本記事における VLM（Vision Language Model）の技術的基盤として参照。
He, K., Zhang, X., Ren, S., Sun, J. (2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385. arxiv.org/abs/1512.03385 ── 本記事における Deep Learning（CNN）系アーキテクチャの代表例として参照。
経済産業省・厚生労働省・文部科学省 (2025). 2025年版ものづくり白書. meti.go.jp/report/whitepaper/mono/2025/ ── 製造業におけるDX・生成AI活用動向、多品種少量生産への対応に関する公的指標として参照。
経済産業省 商工業実態基本調査. meti.go.jp/statistics/tyo/syokozi/ ── 国内製造業における中小企業の構成比（99.5%）に関する公的統計として参照。
VLM（Vision Language Model）による外観検査の仕組み ── Nsight技術解説。VLMが外観検査に適用される技術的根拠と実装方式の詳細。
多品種検査でVLMが効く理由｜仕組みと適用条件 ── 多品種ラインにおけるVLM適用の具体条件。
VLMでNG画像を自動生成する｜従来手法との違いと導入フロー ── 本記事で言及した「教師役としてのVLM」の実装詳細。
多品種外観検査のコスト削減術｜VLMで品種追加コストをゼロに ── 本記事のコスト比較表の前提となる試算根拠。

VLMとDeep Learningの違い
外観検査で使い分ける判断基準