実装・技術解説 2026.03.31 10 min read

AIクローラーは何階層まで潜るのか—GPTBot・PerplexityBot・Googlebot実測比較

AIクローラー実測何階層まで潜るのか?
OBS-LOG / 2026.03.31
TABLE OF CONTENTS

AIクローラーがサイトの何階層目まで潜るかを、実測したデータはほとんど存在しません。
「リンクを辿る限り潜る」という一般論はあちこちで目にしますが、実際のログで確かめた記事は見当たりませんでした。

AI観測ラボのサーバーログ(2026年3月24日〜31日・8日間)からGPTBot・PerplexityBot・Googlebotのアクセスを抽出し、URLの階層数を機械的に集計しました。/article/なら1階層、/category/article/なら2階層、/category/tag/article/なら3階層として数えています。

3社のクローラーで、行動パターンがはっきり分かれました

この記事でわかること|📖:約7分

  • AIクローラーが実際に何階層目まで潜っているか
  • GPTBot・PerplexityBot・Googlebotの行動パターンの違い
  • サーバーログからクロール深度を調べる方法
  • 内部リンク設計でAIクローラーの到達範囲が変わる理由

クロール深度とは何か

クロール深度とは、AIクローラーがサイトの何階層目のページまでアクセスしているかを示す指標です。階層はURLのスラッシュの数で数えます。

たとえば、当ブログのURLで考えると次のようになります。

  • 1階層:blog.ai-kansoku.com/ai-crawler/
  • 2階層:blog.ai-kansoku.com/category/ai-crawler/
  • 3階層:blog.ai-kansoku.com/category/tag/ai-crawler/

一般的に「AIクローラーはリンクを辿る限り何階層でも潜る」と言われています。ただ、実際のところは「どの階層に何件アクセスしているか」というデータがないと、本当のことはわかりません。階層が深くなるほどクロール数が減るのか、それとも関係ないのか?ログを集計するまで答えは出ません。

サイトの階層構造とクロール深度の図解
URLのスラッシュの数で階層を数える。1階層・2階層・3階層のイメージ。

実測方法——サーバーログからクロール深度を集計する

使ったのは当ブログのサーバーアクセスログです。ログにはクローラーの※User-Agentが記録されているので、GPTBot・PerplexityBot・Googlebotの行をgrepで抽出し、URLのスラッシュの数をawkで数えました。

※User-Agentとは:クローラーがサーバーに送る「自己紹介文」のようなもので、どのクローラーが来ているかを識別できます
クローラーの識別方法についてはAIクローラーはIPで判定するな——User-Agentを使うべき理由で詳しく解説しています。

具体的には次のコマンドを使っています。

for f in /path/to/logs/access_log*; do
  if [[ $f == *.gz ]]; then zcat $f; else cat $f; fi
done \
| grep -i "GPTBot\|PerplexityBot\|Googlebot" \
| grep -v "wp-\|\.xml\|\.txt\|sitemap\|robots\|\.css\|\.js\|\.webp\|\.png\|\.jpg\|/feed\|xmlrpc\|embed\|wp-json" \
| awk -F'"' '{print $2}' \
| awk '{print $2}' \
| awk -F'?' '{print $1}' \
| awk -F'/' '{print NF-1}' \
| sort | uniq -c | sort -rn

ポイントは2つあります。1つ目は、画像・CSS・JS・サイトマップなどの静的ファイルへのアクセスを除外していること。記事本文へのアクセスだけを対象にしています。2つ目は、gzで圧縮された過去ログも含めて集計していること。直近のログファイルだけでは件数が少なくなるため、保存されているすべてのログを対象にしています。

集計期間は2026年3月24日〜31日の8日間、合計610件のアクセスが対象です。

サーバーログからクロール深度を集計するコマンドのイメージ図
ログファイルからクローラーのアクセスを抽出し、URLの階層数を集計する流れ。

3社のクロール深度を実測した結果

8日間のログから抽出した610件のアクセスを、クローラーごとに階層別に集計した結果が下記の表のとおり。

GPTBot・PerplexityBot・Googlebotのクロール深度比較表
3社のクローラーが8日間でアクセスした階層別件数(2026年3月24日〜31日)。
階層 GPTBot PerplexityBot Googlebot
1階層 11件 7件 10件
2階層 97件 224件 96件
3階層 45件 96件 24件
合計 153件 327件 130件

3社に共通しているのは、2階層への集中です。全体の約6割が2階層のURLへのアクセスで、1階層(トップページ直下の固定ページなど)はほとんどスルーされています。ただ、3階層への潜り方に大きな差が出ました。

クローラーごとの行動パターン——個性がくっきり分かれた

GPTBot——自分に関する記事を重点的に読みに来る

GPTBotは153件のアクセスのうち、上位2件だけで全体の約3割を占めていました。

  • /tag-noindex-gptbot-crawl-stopped/:35件
  • /gptbot-behavior/:17件

「タグをnoindexにしたらGPTBotが来なくなった」という記事と、「GPTBotの挙動」を解説した記事に集中しています。自分の名前が入った記事を重点的に読みに来ているわけです。残りの記事は1〜2件ずつ均等にアクセスしており、特定の記事を深掘りしてから広く拾うという動きが見えます。

PerplexityBot——とにかく広く、まんべんなく刈り取る

PerplexityBotは327件と3社の中で最も件数が多く、1記事あたり5〜7件という均等なアクセスが特徴です。特定の記事に偏ることなく、ブログ全体をまんべんなくクロールしています。

また、3階層への到達率が高いのもPerplexityBotの特徴です。全アクセスの約29%が3階層のURLで、Googlebot(約18%)と比べて深くまで潜っています。検索エンジンとして最新情報をリアルタイムで拾う必要があるため、タグページの深い階層まで積極的に巡回していると考えられます。

なお、PerplexityBotのクロール実態についてはPerplexityにサイトを読まれるには——クロール実測でわかったことでも詳しく解説しています。

Googlebot——バランス型で3階層への到達は控えめ

Googlebotは130件で、2階層への集中度はGPTBotとほぼ同じです。ただ3階層への到達は24件(約18%)と3社の中で最も少なく、タグページや深い階層はあまり重視していない傾向があります。検索インデックスの構築が目的のため、記事本文(2階層)を効率よく収集することを優先していると考えられます。

GPTBot・PerplexityBot・Googlebotの行動パターン比較図
GPTBotは特定記事集中型、PerplexityBotは広域均等型、Googlebotはバランス型という個性が見えた。

クロール深度からわかるサイト設計の考え方

今回の実測から、AIクローラーに読んでもらうためのサイト設計について3つのポイントが見えてきました。

1. 記事本文は2階層に置くのが基本

3社すべてで2階層へのアクセスが最も多い結果になりました。WordPressの標準的なURL構造(ドメイン/カテゴリ/記事スラッグ/)はAIクローラーにとっても読みやすい構造といえます。記事URLを必要以上に深くしないことが、クロールされやすさにつながります。

2. 3階層以上はPerplexityBotしか積極的に来ない

タグページや複数カテゴリが絡むURLは3階層以上になりやすいですが、Googlebotはほとんど来ておらず、GPTBotも件数が少ない結果でした。

タグページに重要なコンテンツを置いても、AIクローラーには届きにくい可能性があります。重要な記事は2階層以内に収まるURL設計を意識することをおすすめします。

3. 内部リンクの設計がクロール深度を左右する

AIクローラーはリンクを辿ってページを発見します。トップページや主要記事から深い階層のページへ内部リンクが張られていれば、クローラーはそこまで到達できます。逆に内部リンクが少ないページは、階層が浅くてもクローラーに発見されにくくなります

クロール深度はURLの構造だけでなく、内部リンクの設計にも左右されます。内部リンクの考え方についてはAIに引用されるサイト、基本設定8項目チェックリストも参考にしてください。

内部リンクとクロール深度の関係を示した図解
内部リンクが充実しているほど、AIクローラーは深い階層まで到達しやすくなる。

まとめ

8日間のサーバーログからGPTBot・PerplexityBot・Googlebotのクロール深度を実測した結果をまとめます。

  • 3社共通で2階層(カテゴリ配下の記事本文)へのアクセスが最多で、全体の約6割を占めた
  • GPTBotは自分に関連する記事に集中してアクセスする傾向があった
  • PerplexityBotは件数が最多で広域均等型、3階層への到達率も3社の中で最も高かった
  • Googlebotは2階層メインのバランス型で、3階層への到達は3社の中で最も少なかった

「AIクローラーはリンクを辿る限り何階層でも潜る」という一般論は正しいですが、実際には階層が深くなるほどアクセス数は減り、クローラーごとに深さの傾向が異なることが今回の実測でわかりました。

記事本文を2階層以内に置き、内部リンクを充実させることが、AIクローラーに読んでもらうための基本的な考え方といえます。

AI観測ラボでは引き続きサーバーログを使った実測データを公開していきます。AIクローラーの挙動をもっと詳しく知りたい方はAIクローラーとは?引用されるサイト設計の基本と対策もあわせて読んでみてください。

Free Diagnostic Tool

あなたのサイトは、
AIに見えていますか?

URLを入力するだけで30秒。8項目を自動診断し、優先度別の改善プランを提示します。完全無料・登録不要。