VLM vs Deep Learning 技術解説

VLMとDeep Learningの違い
外観検査で使い分ける判断基準

品種数、欠陥タイプ、タクトタイム。3つの条件から、VLM・Deep Learning・ルールベースのどれを選ぶか判断できます。元キーエンス技術者が両技術の強み・弱みを比較表で整理しました。

TopicAI外観検査技術 For技術選定担当者向け Updated2026.05.11
1
VLMとDeep Learningは「対立」ではなく 「役割分担」で組み合わせるのが2026年の主流です。
2
VLMは教師役(NG画像生成・オートアノテーション)として学習データ準備を担当。品種追加のコストを劇的に下げます。
3
Deep Learning(CNN)は本番ループの検査役として高速判定を担当。タクトタイム数十msの高速ラインでも追従します。
― CONTENTS ―
  1. VLMとは何か
  2. Deep Learning(CNN)とは何か
  3. ルールベース検査とは何か
  4. 3手法の比較一覧
  5. VLMの役割:検査ではなく「教師」
  6. 使い分けの判断基準
  7. ハイブリッド構成の設計例
  8. コスト比較
  9. VLMが向かないケース
  10. VLM+DLハイブリッドの導入ステップ
  11. よくあるご質問
  12. 参考文献・出典
  13. 関連記事
  14. 監修
― 01 / VLMとは

VLMとは何か

関連:AI外観検査の3手法の比較ガイド

結論:VLMは「教師役」、Deep Learningは「検査役」。組み合わせて使うのが正解です。

VLM(Vision Language Model)は良品画像からNG画像を自動生成し、アノテーションも同時に済ませます。Deep Learning(CNN)は、そのデータを使って高速・高精度に検査します(合成データ活用の詳細)。「どちらが優れているか」ではなく「どう組み合わせるか」で検査AIの費用対効果が決まります。

VLM(Vision Language Model)は、画像と言語を同時に理解するAIモデルです。画像を見て「何が写っているか」を言語で説明でき、逆に言語の指示から画像を解釈・生成できます。

外観検査におけるVLMの役割は、検査そのものではありません。良品画像から欠陥パターンを自動生成し、CNNの学習データを作る「教師役」です。

従来のDeep Learning検査では、品種ごとに数百〜数千枚のNG画像を集める必要がありました。不良率0.1%以下のラインでは、十分なNG画像を揃えるのに数か月かかります。VLMは、良品画像数枚から多様な欠陥パターン(キズ、打痕、変色、異物など)を自動生成し、この待ち時間をゼロにします。

― 02 / Deep Learning

Deep Learning(CNN)とは何か

Deep Learning、特にCNN(畳み込みニューラルネットワーク)は、大量の画像データからパターンを学習して判定するAIです。外観検査ではOK/NG判定や欠陥分類に使います。

強みは推論速度と既知欠陥の検出精度です。学習済みモデルは数十msで判定が完了し、十分なデータがあれば検出率99%以上に達します。タクトタイム100ms以下の高速ラインでも対応できます(推論最適化の実装はTensorRTで外観検査の推論速度を10倍にする方法を参照)。

弱みは学習データの収集コストです。品種ごとに数百〜数千枚のラベル付きデータが必要で、50品種のラインでは数万枚(参考:多品種アノテーション工数を90%削減する方法)。アノテーション(ラベル付け)は1枚あたり数分〜数十分かかり、外注すれば数百万円規模のコストになります(参考:アノテーションコスト削減|VLMで工数90%減)。

― 03 / ルールベース

ルールベース検査とは何か

ルールベースは、閾値やフィルタなどの数値パラメータを人間が設定して検査する従来型の手法です。学習データは不要で、判定ロジックが明確なため品質監査にも対応しやすいのが特徴です。

推論速度は3手法で最速(数ms)。寸法測定ではサブピクセル精度が出ます。一方で品種が増えると品種ごとにパラメータ調整が必要になり、50品種を超えるラインでは専任の担当者が必要になることもあります。

― 04 / 比較

3手法の比較一覧

比較項目ルールベースDeep Learning (CNN)VLM
学習データ不要数百〜数千枚/品種良品数枚からNG画像を自動生成
推論速度最速(数ms)高速(数十ms)低速(数百ms〜秒)
多品種対応品種ごとに設定品種ごとに学習品種追加コストが低い
既知欠陥の精度中〜高最高(99%以上)
未知欠陥検出不可検出困難対応可能
文字認識(OCR)困難個別開発が必要標準で対応
寸法測定サブピクセル精度中精度不向き
導入コスト低い高い(品種数に比例)低い(品種数に依存しない)
判定根拠の説明ロジックが明確ブラックボックス言語で説明可能
― 05 / VLMの役割

VLMの役割:検査ではなく「教師」

VLMの推論速度は数百ms〜数秒です。タクトタイム100ms以下の高速ラインでは間に合いません。そのためVLMを検査そのものに使うのではなく、CNNの学習データを生成する「教師役」として使うのが実用的な構成です。

具体的な流れは以下のとおりです。

  1. 良品画像の準備:ラインで撮影した良品画像を数枚〜数十枚用意する
  2. VLMによるNG画像生成:良品画像をもとに、キズ・打痕・変色・異物などの欠陥パターンを自動生成する。欠陥の位置・サイズ・種類のメタデータも同時に生成されるため、アノテーション工程が不要になる
  3. CNNの学習:生成したNG画像と良品画像でCNNを学習させる
  4. 本番検査:学習済みCNNがライン上で高速に判定(数十ms)

この構成の利点は、NG画像の収集待ちがなくなることです。不良率0.1%以下のラインでも、数日以内にCNNの学習を開始できます。

生成されるNG画像は、欠陥の位置・サイズ・深刻度を細かく制御できます。「キズの長さ0.5mm〜3mm」「打痕の深さ浅〜深」といった条件を指定し、バリエーションを網羅的に生成するため、CNNが苦手とするレアケースの検出感度も強化できます。

― 06 / 判断基準

使い分けの判断基準

検査手法の選定は、以下の3条件で判断できます。

条件1:品種数

条件2:欠陥タイプ

条件3:タクトタイム

― 07 / 構成例

ハイブリッド構成の設計例

実際の製造ラインでは、1つの手法だけで全検査項目をカバーすることは稀です。以下は、多品種ラインで採用される典型的なハイブリッド構成です。

― 多品種ライン向けハイブリッド構成 1次判定(ルールベース):明らかなOK品を数msで通過させる。寸法測定もここで実行
2次判定(CNN):グレーゾーンの製品をCNNで詳細判定。VLMが生成したNG画像で学習済み
文字認識(VLM):ラベル領域の文字・バーコードをVLMで読み取り・照合
品種追加時:VLMで新品種のNG画像を生成→CNNを再学習。数日で検査開始

この構成で、多品種ラインの検査立ち上げ期間は従来の数か月から数日に短縮できます。

― 08 / コスト

コスト比較:DL方式 vs VLM+DLハイブリッド方式

コスト項目DL単体VLM+DL ハイブリッド
初期導入(ハードウェア・構築)300〜500万円350〜550万円
学習データ収集(10品種)200〜500万円10〜30万円
品種追加(1品種あたり)20〜50万円1〜3万円
年間運用100〜200万円80〜150万円
10品種・3年間の総コスト1,000〜1,800万円520〜880万円

― 注意 上記コストはあくまで一般的な参考レンジです。実際の費用は検査対象・品種数・設備規模・要件により大幅に変動します。正確な見積もりは個別ヒアリング後にご提案します。

初期導入費はハイブリッド構成のほうが50〜100万円ほど高くなりますが、学習データの収集コストが1/10以下になるため、品種数が増えるほど差が開きます。10品種・3年間で見ると、総コストはおよそ半分です。

Deep Learningでよくある失敗

「PoCで精度99%が出たのに本番で下がった」原因の大半は、PoCと本番で照明条件・ワーク位置決め・素材ロットが異なること(PoC設計の詳細はAI外観検査のPoC完全ガイド|成功の5条件を参照)。AIモデルの性能より、撮像環境の安定性が精度の8割を決めます。検査精度を上げたいなら、まず照明と治具を見直してください。

― 09 / 非推奨ケース

VLMが向かないケース

VLMは万能ではありません。以下のケースでは導入メリットが小さいか、別の手法が適しています。

― 10 / 導入ステップ

VLM+DLハイブリッドの導入ステップ

VLMとDeep Learningを組み合わせた検査システムの導入は、以下の5ステップで進めます。

ステップ1:検査要件の整理(1〜2週間)

検査対象の品種数、欠陥の種類、タクトタイム、許容される見逃し率・過検出率を整理します。この段階で「ルールベースだけで済む項目」と「AIが必要な項目」を切り分けておくと、後工程の無駄がなくなります。

ステップ2:撮像環境の構築(2〜4週間)

カメラ・照明・治具を選定し、安定した撮像環境を作ります。AIの検出精度は撮像環境で8割決まります。照明の角度、ワークの位置決め、背景の統一を徹底してください。この工程を軽視すると、どんなAIモデルを使っても精度が出ません。

ステップ3:VLMによるNG画像生成(1〜2週間)

ステップ2で撮影した良品画像をVLMに入力し、NG画像を自動生成します。キズ、打痕、変色、異物、欠品など、想定される欠陥パターンを網羅的に生成します。アノテーション情報(欠陥の位置・種類・サイズ)も同時に生成されるため、手作業のラベル付けは不要です。

ステップ4:CNNの学習と精度検証(2〜3週間)

生成したNG画像と良品画像でCNNモデルを学習させます。初期モデルの精度検証には、実ラインから抜き取った数十〜数百枚の実画像を使います。合成データだけでなく実データも混ぜることで、精度がさらに向上します。合成データ70%、実データ30%の比率が目安です。

ステップ5:ライン実装と運用開始(2〜4週間)

検証済みのCNNモデルをエッジデバイス(Jetson Orin等)に実装し、ラインに組み込みます。初期は「AIと目視の並行運用」で判定結果を照合し、閾値を微調整します。安定稼働を確認したら、AI単独運用に切り替えます。

全体で8〜15週間。従来のDeep Learning単体導入では、NG画像の収集だけで数か月かかることを考えると、大幅な期間短縮です。

技術解説
VLM(Vision Language Model)による外観検査の仕組み →
関連記事
外観検査に合成データを使う8つのメリット →
サービス
多品種外観検査AI|VLMで学習コストを削減 →

自社に最適な検査手法を判断しませんか?

検査対象の画像をお送りください。VLM・DL・ルールベースのどれが最適か、無料で検証します。

無料サンプル検証を依頼する →
― 11 / FAQ

よくあるご質問

VLMとDeep Learningはどちらが精度が高い?

既知の欠陥検出ではDeep Learning(CNN)が高精度です。十分な学習データがあればCNNの検出率は99%以上に達します。VLMは良品画像からNG画像を自動生成する「教師役」として使い、本番検査はCNNで実行するハイブリッド構成が実用的です。

VLMだけで外観検査はできる?

技術的には可能ですが、推論速度がネックです。VLM単体の推論は数百ms〜数秒かかるため、タクトタイム100ms以下の高速ラインでは間に合いません。VLMでNG画像を生成し、CNNで高速検査する構成が現実的です。

VLM導入にGPUは必要?

NG画像生成(学習フェーズ)にはGPUが必要です。NVIDIA T4以上を推奨します。ただし本番検査をCNNで実行する場合、推論側はJetson Orin等のエッジデバイスで動作します。クラウドGPUで生成→エッジで推論という構成が一般的です。

多品種ラインではVLMとDLどちらが有利?

多品種ではVLMが有利です。Deep Learningは品種ごとに数百〜数千枚の学習データが必要で、品種が増えるほどデータ収集コストが膨らみます。VLMは良品画像数枚からNG画像を自動生成できるため、品種追加のコストが低く抑えられます。

ハイブリッド構成の初期費用はDL単体と比べてどうなる?

初期導入費はハイブリッド構成のほうが50〜100万円ほど高くなります。一方で、学習データ収集コストが1/10以下になるため、品種数が10品種・3年間の総コストではDL単体の約半分になります。品種数が多いほど差が開く構造です。

VLMで生成した合成画像で学習したCNNは、実欠陥を本当に検出できる?

条件次第で十分に検出できます。VLMが生成するNG画像は欠陥の位置・サイズ・深刻度を細かく制御できるため、実欠陥のバリエーションを網羅できれば検出感度はDL単体と同等以上に達します。ただし合成画像のみでの学習は過学習リスクがあるため、実NG画像が数枚でもあれば併用するのが原則です。

PoCはVLM+DLとDL単体、どちらの構成で始めるべき?

PoCの段階では、まず本番のタクトタイム要件と品種数を整理してください。品種数が5以下ならDL単体、6品種以上ならVLM+DLハイブリッドのPoCを推奨します。PoCで最も多い失敗は撮像環境がPoCと本番で違うことなので、構成選定よりも照明・カメラ・治具を本番と揃えることが先です。

― 12 / 出典

参考文献・出典

本記事の技術的記述は、以下の一次文献および公的統計を参考にしています。

― References

  1. Radford, A., Kim, J. W., Hallacy, C., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. arxiv.org/abs/2103.00020 ── 本記事における VLM(Vision Language Model)の技術的基盤として参照。
  2. He, K., Zhang, X., Ren, S., Sun, J. (2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385. arxiv.org/abs/1512.03385 ── 本記事における Deep Learning(CNN)系アーキテクチャの代表例として参照。
  3. 経済産業省・厚生労働省・文部科学省 (2025). 2025年版ものづくり白書. meti.go.jp/report/whitepaper/mono/2025/ ── 製造業におけるDX・生成AI活用動向、多品種少量生産への対応に関する公的指標として参照。
  4. 経済産業省 商工業実態基本調査. meti.go.jp/statistics/tyo/syokozi/ ── 国内製造業における中小企業の構成比(99.5%)に関する公的統計として参照。
  5. VLM(Vision Language Model)による外観検査の仕組み ── Nsight技術解説。VLMが外観検査に適用される技術的根拠と実装方式の詳細。
  6. 多品種検査でVLMが効く理由|仕組みと適用条件 ── 多品種ラインにおけるVLM適用の具体条件。
  7. VLMでNG画像を自動生成する|従来手法との違いと導入フロー ── 本記事で言及した「教師役としてのVLM」の実装詳細。
  8. 多品種外観検査のコスト削減術|VLMで品種追加コストをゼロに ── 本記事のコスト比較表の前提となる試算根拠。
― 13 / 関連記事

関連記事

同カテゴリ:技術解説(VLM・CNN・データ生成)

隣接トピック:選定・コスト

物流現場でも、同じ技術が使えます

製造ラインで培ったVLM・エッジAI・光学設計のノウハウは、物流の入荷検品・OCR・倉庫オペにも応用できます。

― 14 / 監修

監修

― REVIEWED BY 嶋野(元キーエンス画像処理部門 開発)
キーエンス画像処理部門での実務経験をもとに、製造業の外観検査・画像処理に関する技術監修を行っている。会社概要 →