実装・技術解説 2026.03.11 12 min read

AIクローラーの違いとは?GPTBot・ClaudeBot・PerplexityBotを実測比較

GPTBot・OAI-SearchBotのrobots.txt許可・拒否設定ガイド
OBS-LOG / 2026.03.11
TABLE OF CONTENTS

2026年、あなたのサイトには複数のAIクローラーが来ています。

GPTBot・ClaudeBot・PerplexityBot——名前は知っていても、動き方の違いまで把握しているサイト運営者はほとんどいません。

AI観測ラボのサーバーログ(559件・6日間)で実測したところ、3つのクローラーはまったく異なる戦略でサイトを巡回していました。

GPTBotは関連ページを深掘りし、ClaудeBotはrobots.txtとsitemapを繰り返し確認し、PerplexityBotは広く浅く均等にクロールします。

どのボットに何をさせるか——その判断材料として、実測データをもとに整理しました。

この記事でわかること|📖:約6分

  • 通常の検索クロールとAI検索クロールの具体的な違い
  • 各AIボット(Googlebot / GPTBot / OAI-SearchBot など)の役割と比較
  • 2026年時点の最新クロール統計データ
  • robots.txtの設定パターン早見表
  • サイト運営者として今すぐできる対策チェックリスト

なぜ今「AI検索のクロール」を知る必要があるのか

2024〜2025年にかけて、検索のあり方が大きく変わりました。

従来の検索は「青いリンクの一覧から選ぶ」スタイルでした。

でも今は違います。

  • Google AI Modeが直接答えを生成する
  • ChatGPTが最新情報を検索して回答する
  • PerplexityがWebを読んで要約してくれる

つまり、「検索 = サイトへの流入」という方程式が崩れ始めているんです。

従来の検索 vs AI検索の流れ

【従来の検索】

Googlebotが巡回 → インデックス登録 → 検索結果に表示 → ユーザーがクリックして訪問

【AI検索の現実】

複数のボットが巡回 → AIが内容を学習・引用 → ユーザーへ直接回答(サイトには来ない)

コンテンツは使われているのに、流入が来ない。

こんな新しい課題が生まれています。

従来の検索とAI検索のクロールフロー比較図
従来の検索(青)とAI検索(オレンジ)のクロールフロー比較

Webサイトを運営する立場なら、自分のサイトがどのボットにどう読まれているかを把握することは、もはや必須の知識です。


そもそも「クロール」とは?基礎をおさらい

クロールの仕組み

クロールとは、検索エンジンやAIサービスが運営する「ボット(クローラー)」と呼ばれるプログラムが、インターネット上のWebページを自動的に訪問・収集する行為です。

ボットはリンクを辿るようにページからページへ移動しながら、テキストや構造情報を収集します。

集めたデータは「インデックス」と呼ばれるデータベースに格納され、検索結果やAIの回答生成に使われます。

robots.txt とは

Webサイトのルートに置くテキストファイルで、「どのボットにどのページへのアクセスを許可/拒否するか」を指定できます。

ただし、あくまでボットへの「お願い」であり、法的拘束力はありません。良識的なボットは遵守しますが、悪質なボットは無視することもあります。

📖 詳しい書き方はこちら:AIクローラー時代のrobots.txt完全ガイド

# robots.txt の基本構文
User-agent: GPTBot     ← 対象ボットを指定
Disallow: /            ← サイト全体へのアクセスを拒否

通常検索クロールの流れ(復習)

  1. Googlebotがサイトを定期的に巡回
  2. ページの内容・リンク構造を解析
  3. Googleのインデックスに登録
  4. ユーザーが検索 → 検索結果に表示 → クリックで流入

このモデルでは「クロールされる = 流入につながる可能性がある」という関係が成立していました。

AI検索ではこの関係が崩れます。


通常検索 vs AI検索:クロールの何が違うのか

① 目的が違う

通常検索のクロールは「インデックス登録→検索結果表示→流入」が目的です。

一方、AI検索のクロールには主に2つの目的があります。

  • モデル学習用データの収集(GPTBot、ClaudeBotなど)
  • リアルタイム回答生成のための情報取得(OAI-SearchBot、PerplexityBotなど)

特にリアルタイム取得型は、ユーザーが質問した瞬間にボットが動くケースもあり、クロールの性質が根本的に異なります。

② JavaScript(JS)の扱いが違う

Googlebotは「Web Rendering Service(WRS)」という仕組みでJavaScriptを実行し、動的コンテンツも読み取れます。

一方、GPTBot・OAI-SearchBot・ClaudeBot・PerplexityBotなど主要なAIボットはJavaScriptを実行しません。

ReactやVue.jsなどのSPAサイトや、JS依存のコンテンツはAI検索には「見えていない」可能性があります。

⚠️ 注意

SPA・JSヘビーなサイトを運営している場合、AIボットにはページ内容がほぼ空に見える可能性があります。サーバーサイドレンダリング(SSR)の採用を検討しましょう。

③ クロール頻度と量が違う

Googlebotは継続的・高頻度でクロールしますが、AIボット(特に学習系)は比較的低頻度で訪問し、一度大量取得したら長期間来ないパターンが多いです。

一方「ユーザーアクション型」クロール(ChatGPT-Userなど)は、ユーザーの検索行動に連動して急激に増減します。

比較表:通常検索 vs 主要AI検索ボット

比較項目 通常検索
(Googlebot)
AI検索
(ChatGPT・Perplexity等)
主なBot名 Googlebot GPTBot / OAI-SearchBot
PerplexityBot
クロール頻度 高頻度・継続的 中〜低頻度
JS実行 ✅ あり(WRS) ❌ なし
robots.txt遵守 ✅ 遵守 ✅ 遵守
※ChatGPT-Userは例外あり
流入への還元 🟢 多い 🔴 少ない
個別ブロック ❌ 実質不可 ✅ 独立制御可

主要AIクローラー全解説

現在Webサイトを巡回している主要なAI関連ボットを一覧で整理します。

Bot名 主な用途 JS実行 robots.txt制御
Googlebot 通常検索インデックス+AI機能に流用 ブロック不可(検索圏外になる)
Google-Extended Gemini等のAIモデル学習専用 ブロック可。検索順位に影響なし
GPTBot ChatGPT等のLLMモデル学習用 独立してブロック可
OAI-SearchBot ChatGPT検索のリアルタイムインデックス 独立してブロック可
ChatGPT-User ユーザーがURLを参照した際の取得 robots.txt適用外
ClaudeBot Claude AIのモデル学習・更新用 ブロック可
PerplexityBot Perplexity AI検索の情報取得 ブロック可
Meta-ExternalAgent MetaのLLMモデル学習用 ブロック可

📌 Meta-ExternalAgentについて:2026年2月にGPTBotを抜いてAIクローラーシェア世界第2位(15.6%)に急浮上したにもかかわらず、ブロック率はわずか3.26%です。存在自体を知らないサイト運営者が多いのが現状です。詳しくはMetaの新AIクローラーがサイトに来ていた——実測データで正体を暴くで解説しています。

Googlebotの「二重利用」問題

Googlebotはもともと、通常の検索インデックスを作るためのボットです。

ところが現在、同じクロールデータがAI Overviewsや Google AI Modeにも流用されています。つまり、Googlebotを許可した時点で、通常検索とAI機能の両方にコンテンツを提供していることになります。

Googlebotのデータ流用フロー

🤖 Googlebot がサイトをクロール

通常検索インデックス
→ 検索結果に表示
→ クリックで流入

AI Overviews / AI Mode
→ AIが直接回答
→ 流入はゼロ

パブリッシャー側のジレンマ

Googlebotをブロックしたら検索圏外になる

だからブロックできない

でも、そのデータがAI機能にも勝手に使われる

この問題を回避する唯一の手段が、Google-Extendedです。

Google-ExtendedはGeminiなどのAIモデル学習専用のボットで、robots.txtで個別にブロックしても検索順位には影響しません。「検索流入は維持しながら、AIモデルの学習データには提供しない」という制御が、現状これだけで可能です。

📌 Google-Extendedの設定例

User-agent: Google-Extended
Disallow: /

これだけで、Gemini等への学習提供を拒否できます。通常の検索順位への影響はありません。


AI観測ラボの実測データ(2026年4月1日〜6日)

Cloudflareのグローバルデータに加えて、AI観測ラボのサーバーログ(6日間・559件)でも4クローラーの行動パターンを実測しました。

クローラー タイプ 実測で見えた特徴
GPTBot 集中型 関連ページを深掘り・画像も複数サイズ取得
ClaudeBot 慎重型 robots.txtを47回・sitemapを41回確認
OAI-SearchBot 検索特化型 GPTBotと連動・未公開記事の画像まで取得
PerplexityBot 分散型 最多194件・広く浅く均等クロール

4クローラーはそれぞれまったく異なる戦略でサイトを巡回しています。各クローラーの詳しい行動パターンは実測レポートで解説しています。

📖 AIクローラーは全員違う動きをしていた——4社の行動パターンをサーバーログで比較した結果【AI実験室 #13】


まとめ

AI検索の普及で、クロールの構造は静かに変わっています。AIボットは増え続けていますが、流入として返ってくるケースはまだ少ないのが現実です。

まず自分のサイトがどのボットにどう読まれているかを把握することが、最初の一歩になります。

📋 今すぐできるアクション

やりたいこと 対応
検索流入を維持したい Googlebotは許可。Google-Extendedはブロック検討
AIに引用されたい OAI-SearchBot・PerplexityBotは許可。JS依存コンテンツを見直す
学習データに使われたくない GPTBot・ClaudeBot・Google-Extendedをブロック
サーバー負荷を下げたい 学習系ボットをrobotsでブロック。CloudflareのWAF活用も有効

次に読む

AIボットがあなたのサイトを正確に読めない理由は、HTMLの構造にあります。
AIはdivが読めない——セマンティックHTMLがAI引用の土台になる理由 →


参考:Cloudflare Radar Year in Review 2025 / Cloudflare: Google’s AI crawler policy / OpenAI Bots Documentation / Search Engine Land / Search Engine Journal — この記事は2026年2月のデータに基づいています。AIクローラーの動作・仕様は今後変更される可能性があります。


Free Diagnostic Tool

あなたのサイトは、
AIに見えていますか?

URLを入力するだけで30秒。8項目を自動診断し、優先度別の改善プランを提示します。完全無料・登録不要。