AIクローラーの違いとは?GPTBot・ClaudeBot・PerplexityBotを実測比較
2026年、あなたのサイトには複数のAIクローラーが来ています。
GPTBot・ClaudeBot・PerplexityBot——名前は知っていても、動き方の違いまで把握しているサイト運営者はほとんどいません。
AI観測ラボのサーバーログ(559件・6日間)で実測したところ、3つのクローラーはまったく異なる戦略でサイトを巡回していました。
GPTBotは関連ページを深掘りし、ClaудeBotはrobots.txtとsitemapを繰り返し確認し、PerplexityBotは広く浅く均等にクロールします。
どのボットに何をさせるか——その判断材料として、実測データをもとに整理しました。
この記事でわかること|📖:約6分
- 通常の検索クロールとAI検索クロールの具体的な違い
- 各AIボット(Googlebot / GPTBot / OAI-SearchBot など)の役割と比較
- 2026年時点の最新クロール統計データ
- robots.txtの設定パターン早見表
- サイト運営者として今すぐできる対策チェックリスト
なぜ今「AI検索のクロール」を知る必要があるのか
2024〜2025年にかけて、検索のあり方が大きく変わりました。
従来の検索は「青いリンクの一覧から選ぶ」スタイルでした。
でも今は違います。
- Google AI Modeが直接答えを生成する
- ChatGPTが最新情報を検索して回答する
- PerplexityがWebを読んで要約してくれる
つまり、「検索 = サイトへの流入」という方程式が崩れ始めているんです。
従来の検索 vs AI検索の流れ
【従来の検索】
Googlebotが巡回 → インデックス登録 → 検索結果に表示 → ユーザーがクリックして訪問
【AI検索の現実】
複数のボットが巡回 → AIが内容を学習・引用 → ユーザーへ直接回答(サイトには来ない)
コンテンツは使われているのに、流入が来ない。
こんな新しい課題が生まれています。

Webサイトを運営する立場なら、自分のサイトがどのボットにどう読まれているかを把握することは、もはや必須の知識です。
そもそも「クロール」とは?基礎をおさらい
クロールの仕組み
クロールとは、検索エンジンやAIサービスが運営する「ボット(クローラー)」と呼ばれるプログラムが、インターネット上のWebページを自動的に訪問・収集する行為です。
ボットはリンクを辿るようにページからページへ移動しながら、テキストや構造情報を収集します。
集めたデータは「インデックス」と呼ばれるデータベースに格納され、検索結果やAIの回答生成に使われます。
robots.txt とは
Webサイトのルートに置くテキストファイルで、「どのボットにどのページへのアクセスを許可/拒否するか」を指定できます。
ただし、あくまでボットへの「お願い」であり、法的拘束力はありません。良識的なボットは遵守しますが、悪質なボットは無視することもあります。
📖 詳しい書き方はこちら:AIクローラー時代のrobots.txt完全ガイド
# robots.txt の基本構文
User-agent: GPTBot ← 対象ボットを指定
Disallow: / ← サイト全体へのアクセスを拒否
通常検索クロールの流れ(復習)
- Googlebotがサイトを定期的に巡回
- ページの内容・リンク構造を解析
- Googleのインデックスに登録
- ユーザーが検索 → 検索結果に表示 → クリックで流入
このモデルでは「クロールされる = 流入につながる可能性がある」という関係が成立していました。
AI検索ではこの関係が崩れます。
通常検索 vs AI検索:クロールの何が違うのか
① 目的が違う
通常検索のクロールは「インデックス登録→検索結果表示→流入」が目的です。
一方、AI検索のクロールには主に2つの目的があります。
- モデル学習用データの収集(GPTBot、ClaudeBotなど)
- リアルタイム回答生成のための情報取得(OAI-SearchBot、PerplexityBotなど)
特にリアルタイム取得型は、ユーザーが質問した瞬間にボットが動くケースもあり、クロールの性質が根本的に異なります。
② JavaScript(JS)の扱いが違う
Googlebotは「Web Rendering Service(WRS)」という仕組みでJavaScriptを実行し、動的コンテンツも読み取れます。
一方、GPTBot・OAI-SearchBot・ClaudeBot・PerplexityBotなど主要なAIボットはJavaScriptを実行しません。
ReactやVue.jsなどのSPAサイトや、JS依存のコンテンツはAI検索には「見えていない」可能性があります。
⚠️ 注意
SPA・JSヘビーなサイトを運営している場合、AIボットにはページ内容がほぼ空に見える可能性があります。サーバーサイドレンダリング(SSR)の採用を検討しましょう。
③ クロール頻度と量が違う
Googlebotは継続的・高頻度でクロールしますが、AIボット(特に学習系)は比較的低頻度で訪問し、一度大量取得したら長期間来ないパターンが多いです。
一方「ユーザーアクション型」クロール(ChatGPT-Userなど)は、ユーザーの検索行動に連動して急激に増減します。
比較表:通常検索 vs 主要AI検索ボット
| 比較項目 | 通常検索 (Googlebot) |
AI検索 (ChatGPT・Perplexity等) |
|---|---|---|
| 主なBot名 | Googlebot | GPTBot / OAI-SearchBot PerplexityBot |
| クロール頻度 | 高頻度・継続的 | 中〜低頻度 |
| JS実行 | ✅ あり(WRS) | ❌ なし |
| robots.txt遵守 | ✅ 遵守 | ✅ 遵守 ※ChatGPT-Userは例外あり |
| 流入への還元 | 🟢 多い | 🔴 少ない |
| 個別ブロック | ❌ 実質不可 | ✅ 独立制御可 |
主要AIクローラー全解説
現在Webサイトを巡回している主要なAI関連ボットを一覧で整理します。
| Bot名 | 主な用途 | JS実行 | robots.txt制御 |
|---|---|---|---|
| Googlebot | 通常検索インデックス+AI機能に流用 | ✅ | ブロック不可(検索圏外になる) |
| Google-Extended | Gemini等のAIモデル学習専用 | ✅ | ブロック可。検索順位に影響なし |
| GPTBot | ChatGPT等のLLMモデル学習用 | ❌ | 独立してブロック可 |
| OAI-SearchBot | ChatGPT検索のリアルタイムインデックス | ❌ | 独立してブロック可 |
| ChatGPT-User | ユーザーがURLを参照した際の取得 | ❌ | robots.txt適用外 |
| ClaudeBot | Claude AIのモデル学習・更新用 | ❌ | ブロック可 |
| PerplexityBot | Perplexity AI検索の情報取得 | ❌ | ブロック可 |
| Meta-ExternalAgent | MetaのLLMモデル学習用 | ❌ | ブロック可 |
📌 Meta-ExternalAgentについて:2026年2月にGPTBotを抜いてAIクローラーシェア世界第2位(15.6%)に急浮上したにもかかわらず、ブロック率はわずか3.26%です。存在自体を知らないサイト運営者が多いのが現状です。詳しくはMetaの新AIクローラーがサイトに来ていた——実測データで正体を暴くで解説しています。
Googlebotの「二重利用」問題
Googlebotはもともと、通常の検索インデックスを作るためのボットです。
ところが現在、同じクロールデータがAI Overviewsや Google AI Modeにも流用されています。つまり、Googlebotを許可した時点で、通常検索とAI機能の両方にコンテンツを提供していることになります。
Googlebotのデータ流用フロー
→ クリックで流入
→ 流入はゼロ
パブリッシャー側のジレンマ
Googlebotをブロックしたら検索圏外になる
↓
だからブロックできない
↓
でも、そのデータがAI機能にも勝手に使われる
この問題を回避する唯一の手段が、Google-Extendedです。
Google-ExtendedはGeminiなどのAIモデル学習専用のボットで、robots.txtで個別にブロックしても検索順位には影響しません。「検索流入は維持しながら、AIモデルの学習データには提供しない」という制御が、現状これだけで可能です。
📌 Google-Extendedの設定例
User-agent: Google-Extended
Disallow: /
これだけで、Gemini等への学習提供を拒否できます。通常の検索順位への影響はありません。
AI観測ラボの実測データ(2026年4月1日〜6日)
Cloudflareのグローバルデータに加えて、AI観測ラボのサーバーログ(6日間・559件)でも4クローラーの行動パターンを実測しました。
| クローラー | タイプ | 実測で見えた特徴 |
|---|---|---|
| GPTBot | 集中型 | 関連ページを深掘り・画像も複数サイズ取得 |
| ClaudeBot | 慎重型 | robots.txtを47回・sitemapを41回確認 |
| OAI-SearchBot | 検索特化型 | GPTBotと連動・未公開記事の画像まで取得 |
| PerplexityBot | 分散型 | 最多194件・広く浅く均等クロール |
4クローラーはそれぞれまったく異なる戦略でサイトを巡回しています。各クローラーの詳しい行動パターンは実測レポートで解説しています。
📖 AIクローラーは全員違う動きをしていた——4社の行動パターンをサーバーログで比較した結果【AI実験室 #13】
まとめ
AI検索の普及で、クロールの構造は静かに変わっています。AIボットは増え続けていますが、流入として返ってくるケースはまだ少ないのが現実です。
まず自分のサイトがどのボットにどう読まれているかを把握することが、最初の一歩になります。
📋 今すぐできるアクション
| やりたいこと | 対応 |
|---|---|
| 検索流入を維持したい | Googlebotは許可。Google-Extendedはブロック検討 |
| AIに引用されたい | OAI-SearchBot・PerplexityBotは許可。JS依存コンテンツを見直す |
| 学習データに使われたくない | GPTBot・ClaudeBot・Google-Extendedをブロック |
| サーバー負荷を下げたい | 学習系ボットをrobotsでブロック。CloudflareのWAF活用も有効 |
次に読む
AIボットがあなたのサイトを正確に読めない理由は、HTMLの構造にあります。
AIはdivが読めない——セマンティックHTMLがAI引用の土台になる理由 →
参考:Cloudflare Radar Year in Review 2025 / Cloudflare: Google’s AI crawler policy / OpenAI Bots Documentation / Search Engine Land / Search Engine Journal — この記事は2026年2月のデータに基づいています。AIクローラーの動作・仕様は今後変更される可能性があります。
あなたのサイトは、
AIに見えていますか?
URLを入力するだけで30秒。8項目を自動診断し、優先度別の改善プランを提示します。完全無料・登録不要。