AIクローラーを拒否する前に知っておくべきこと
「AIクローラーをブロックしたい」と思って検索した人へ。robots.txtを書く前に、一度立ち止まって考えてほしいことがあります。
2026年現在、AIクローラーを拒否する方法を解説した記事はたくさんあります。でも「拒否した結果、何が起きるのか」を正直に書いた記事はほとんどありません。
拒否する前に知っておくべき判断基準を、AI観測ラボが実験データをもとに整理します。
この記事でわかること|📖:約8分
- AIクローラーには「学習用」と「引用用」の2種類があり、ブロックの影響がまったく異なること
- GPTBotをブロックしても、ジッピー(ChatGPT)に引用されなくなるとは限らない理由
- 世界のサイト運営者が実際にどう判断しているかの実態データ
- サイトの目的別に「拒否すべきか・許可すべきか」を判断するフローチャート
AIクローラーは1種類じゃない
「AIクローラーをブロックする」と一口に言っても、AIクローラーには複数の種類があります。そしてそれぞれ、役割がまったく異なります。
ここを理解せずにブロック設定をすると、「学習には使われたくないけど、引用はされたかった」という取り返しのつかない状況が起きます。
OpenAIのクローラーだけで3種類ある
ジッピー(ChatGPT)を運営するOpenAIだけでも、クローラーは3種類存在します。
| クローラー名 | 役割 | ブロックしたときの影響 |
|---|---|---|
| GPTBot | AIモデルの学習用データ収集 | 学習データに使われなくなる |
| OAI-SearchBot | じっぴーの検索・引用用 | 引用されなくなる可能性がある |
| ChatGPT-User | ユーザーが会話中にリアルタイム取得 | 会話内でのリアルタイム参照ができなくなる |
多くの記事では「GPTBotをブロックすれば、ChatGPTに学習されない」と説明しています。それは正しいです。しかし「GPTBotをブロックすれば、ChatGPTに引用されなくなる」は、正確ではありません。
引用に関わるのはOAI-SearchBotです。GPTBotだけをブロックしても、OAI-SearchBotを許可していれば、ジッピーはサイトを引用し続けます。逆も然りで、OAI-SearchBotをブロックすると、学習への影響がなくても引用の機会を失います。
主要AIクローラーの一覧
OpenAI以外にも、現在アクティブに動いているAIクローラーは複数あります。
| 運営元 | クローラー名 | 主な用途 |
|---|---|---|
| OpenAI | GPTBot | 学習用 |
| OpenAI | OAI-SearchBot | 検索・引用用 |
| OpenAI | ChatGPT-User | リアルタイム参照用 |
| Anthropic | ClaudeBot | 学習用 |
| Google-Extended | 学習・AI概要用 | |
| Perplexity | PerplexityBot | 検索・引用用 |
| Meta | meta-externalagent | 学習用 |
| xAI | GrokBot | 学習用 |
robots.txtに「AIクローラーをすべてブロック」と書いた場合、学習も引用もまとめて遮断することになります。それが意図した結果かどうか、一度確認が必要です。
AIクローラーの基本的な仕組みについては、AIクローラーとは?引用されるサイト設計の基本と8つの対策で詳しく解説しています。
世界のサイト運営者は、実際どう判断しているのか
「みんながブロックしているから、自分もブロックしよう」という判断は危険です。実態データを見ると、思っていたより複雑な状況が見えてきます。
GPTBotは「最もブロックされ、最も許可されている」クローラー
Cloudflareが2025年に公開したデータによると、調査対象のドメインのうち312ドメインがGPTBotを拒否していました。AIクローラーの中で最多です。
ところが同じ調査で、GPTBotは最も明示的に「許可」されたAIクローラーでもありました。61ドメインがアクセスを許可しています。

つまり、GPTBotに対する判断は「全員が拒否」ではなく、運営者によって真っ二つに分かれています。
「拒否が多い=拒否が正解」ではない
ブロックしているサイトの多くは、2023年にGPTBotが公開された直後に設定したまま、見直しをしていないケースが大半です。当時はAI引用という概念がまだ一般的ではありませんでした。
2026年現在、ジッピー(ChatGPT)やPerplexityが検索の代替として使われるようになった今、当時の判断をそのまま維持することが正しいとは限りません。
robots.txtに何も書いていないサイトが大多数
見落とされがちな事実があります。robots.txtにAIクローラーの記述がないサイトは、デフォルトで「許可」扱いになります。つまり、何も設定していない大多数のサイトは、事実上すべてのAIクローラーを受け入れている状態です。
「何もしていない」という選択も、ひとつの判断です。ただしそれが意図的かどうかは、別の話です。
robots.txtの基本的な書き方については、robots.txtの正しい書き方【AI時代版】で詳しく解説しています。
ブロックすると何が起きるのか
AIクローラーをブロックしたとき、実際に何が変わるのかを整理します。影響は大きく3つに分かれます。
① 過去に学習されたデータは消えない
まず知っておくべき現実があります。今日robots.txtでGPTBotをブロックしても、すでに学習済みのデータを削除する手段はありません。
OpenAIはすでにウェブ上から大量のデータを収集しており、じっぴー(ChatGPT)はそのデータをもとに動いています。ブロックが有効なのは「これからの学習」に対してだけです。
「もう手遅れかもしれない」と感じる必要はありません。ただ、「ブロックすれば過去もなかったことになる」という誤解は持たないようにしましょう。
② 引用の機会を失う可能性がある
ここが最も重要なポイントです。
AIクローラーを一括でブロックすると、学習用クローラーだけでなく、引用・検索用クローラーも同時に遮断されます。その結果、じっぴーやPerplexityがユーザーの質問に回答するとき、サイトが引用候補から外れます。
AI観測ラボが12サイトのAI可視性を計測した実験では、サイトの構造や設定の違いによってAIからの可視性スコアに大きな差が生まれることが確認されています。クローラーへの対応はそのスコアに直結する要因のひとつです。
計測の詳細は大病院が0点、小さなレストランが81点。12サイトのAI可視性を計測してわかったこと【AI実験室 #02】で公開しています。
2026年現在、Google検索のトラフィックが減少する一方で、AI検索経由の流入が増えています。その流れの中でAI引用の機会を自ら閉じることは、長期的に見て大きな損失になる可能性があります。
AI検索がサイトへの流入に与える影響については、コンテンツ改善したのにGA4が悪化?実は成功してるかもしれませんも参考にしてください。
③ robots.txtは「お願い状」にすぎない
robots.txtには強制力がありません。クローラーがそのルールを守るかどうかは、運営元のモラルと方針に委ねられています。
主要なAI企業——OpenAI・Anthropic・Google——はrobots.txtのルールを遵守すると公式に表明しています。ただしすべてのクローラーが同じとは限りません。
過去にPerplexityがrobots.txtを無視してクロールしていたと報告されたことがあります。現在は改善されたとされていますが、robots.txtだけで完全にコントロールできるという前提は持たないほうが安全です。
| 影響の種類 | ブロックしたときに起きること | 注意点 |
|---|---|---|
| 学習への影響 | これからの学習データに使われなくなる | 過去に学習済みのデータは消えない |
| 引用への影響 | AI検索での引用候補から外れる可能性がある | 学習用と引用用を混同しないこと |
| 強制力の限界 | 主要クローラーはルールを遵守する | すべてのクローラーが従うとは限らない |
サイトの目的別——拒否すべきか、許可すべきか
「とりあえずブロック」は正しい判断とは言えません。サイトの目的によって、最適な選択はまったく異なります。以下のフローで確認してみましょう。
AIクローラー 拒否 or 許可 — 判断フロー
社内機密情報を公開しているサイトですか?
ブロックが合理的な選択です
目的のサイトですか?
引用されるメリットが大きいですか?
最大化できます
OAI-SearchBotは許可
それ以外はブロック
📌 判断のポイント
「学習用クローラー」と「引用用クローラー」は別物です。一括でブロックすると、AI検索からの引用機会も同時に失います。目的に応じてクローラーの種類ごとに制御することが重要です。
フローを見てわかるように、ブログ・EC・企業サイトのように情報発信や集客が目的のサイトは、AIクローラーを許可する方向が基本になります。AI検索からの引用機会を自ら閉じる必要はありません。
一方で、会員制コンテンツや社内向け情報を誤って公開しているサイトは、即座にブロックを検討すべきです。
部分許可という第三の選択肢
AIクローラーへの対応は「全部許可」か「全部ブロック」の二択ではありません。robots.txtではページやディレクトリ単位で、クローラーごとに細かく制御できます。
部分許可が有効なケース
たとえば以下のような構成のサイトを運営しているとします。
- 無料の記事ページ → AIに読ませて引用してほしい
- 会員限定ページ(/member/)→ AIに読ませたくない
- 管理画面・プレビューページ → そもそも外部に見せたくない
このケースで「全部ブロック」を選ぶと、無料記事への引用機会も失います。「全部許可」を選ぶと、会員限定ページが読まれるリスクがあります。部分許可はこれらの問題を解決します。
robots.txtの書き方——部分許可の例
GPTBotに対して、会員ページだけブロックして記事ページは許可する場合の書き方です。
# ジッピー(ChatGPT)の学習用クローラー
User-agent: GPTBot
Disallow: /member/
Disallow: /preview/
Allow: /
# ジッピーの検索・引用用クローラー
User-agent: OAI-SearchBot
Disallow: /member/
Allow: /
# Perplexityの引用用クローラー
User-agent: PerplexityBot
Disallow: /member/
Allow: /
# Anthropicの学習用クローラー
User-agent: ClaudeBot
Disallow: /member/
Allow: /
この書き方のポイントは、Disallow(拒否)を先に書いてからAllow(許可)を書くことです。順番を逆にすると意図した通りに動かないクローラーがあります。
「引用は許可・学習は拒否」という設計も可能
学習にはデータを使われたくないけれど、AI検索での引用は歓迎したい——という場合は、クローラーの種類ごとに判断を分けます。
# 学習用クローラーはブロック
User-agent: GPTBot
Disallow: /
# 引用・検索用クローラーは許可
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
学習用と引用用を分けて制御できるのは、クローラーの種類を正しく理解しているからこそできる設計です。セクション①で整理したクローラーの種類の違いが、ここで実際に役立ちます。
robots.txtの基本的な構文や書き方については、robots.txtの正しい書き方【AI時代版】で詳しく解説しています。
llms.txtと組み合わせるとさらに精度が上がる
robots.txtでクローラーの動きを制御しながら、llms.txtでAIに読ませたいコンテンツを明示的に案内する——この2つを組み合わせることで、AIへの露出設計の精度が大きく上がります。
llms.txtの詳細はllms.txtとは?最新のAI対応サイトマップを解説で解説しています。
robots.txtの限界と現実
ここまでrobots.txtを使ったAIクローラーの制御方法を解説してきました。ただし正直に伝えておくべきことがあります。robots.txtには、構造的な限界があります。
robots.txtは「法律」ではなく「お願い状」
robots.txtはサーバー側でアクセスを強制的にブロックするファイルではありません。クローラーに対して「ここには来ないでください」とお願いするテキストファイルです。そのお願いを守るかどうかは、クローラーを運営している企業のモラルと方針に委ねられています。
OpenAI・Anthropic・Googleといった主要AI企業は、robots.txtのルールを遵守すると公式に表明しています。この点については、現時点で信頼できると判断してよいでしょう。
robots.txtを無視するクローラーが存在する
一方で、すべてのクローラーが同じではありません。過去にPerplexityがrobots.txtを無視してクロールしていたと複数のメディアで報告されました。公表していないIPアドレスを使った迂回アクセスも確認されたとされています。現在は改善されたとされていますが、robots.txtだけで完全にコントロールできるという前提は持たないほうが安全です。
また、企業が運営する主要クローラー以外に、個人や小規模な開発者が動かしている「野良クローラー」も存在します。こうしたクローラーはrobots.txtのルールを無視するケースが多く、robots.txtだけでは防ぎきれません。
本当にブロックしたいならCloudflareが有効
robots.txtのお願いを聞かないクローラーに対して実効性のある対策を取りたい場合、Cloudflareの活用が現実的な選択肢になります。
Cloudflareは2025年に「AI Labyrinth」という機能を発表しました。ラビリンス(迷宮)の如くrobots.txtを無視して侵入してくる不正なAIクローラーを、大量のダミーページで生成された迷宮に誘導し、サーバーリソースを無駄に消費させる仕組みです。クローラーを直接ブロックするのではなく、迷宮に閉じ込めて身動きを取れなくするアプローチです。
| 対策手段 | 有効な相手 | 限界 |
|---|---|---|
| robots.txt | 主要AI企業のクローラー | 強制力がなく、無視するクローラーには効かない |
| IPアドレスブロック | IPを公開しているクローラー | IPが変わると無効になる・管理コストが高い |
| Cloudflare WAF | 既知のボット全般 | 設定に一定の知識が必要 |
| AI Labyrinth | robots.txtを無視する不正クローラー | Cloudflare経由のサイトのみ利用可能 |
| Basic認証・パスワード保護 | すべてのクローラー | 一般ユーザーのアクセスも制限される |
完全にクローラーをシャットアウトしたい場合、Basic認証やパスワード保護が唯一確実な手段です。ただしその場合、一般ユーザーもアクセスできなくなります。「公開しているコンテンツをAIだけに見せたくない」という要求は、構造的に矛盾をはらんでいます。
AIクローラーがサイトをどのように読んでいるかの仕組みについては、【保存版】AI検索はどうやってあなたのサイトを読んでいるのか?で詳しく解説しています。
まとめ:拒否は「最後の手段」
ここまで読んでいただいた方には、すでに答えが見えているはずです。AIクローラーの拒否は「やって当然」でも「やったら危険」でもありません。サイトの目的と、守りたいコンテンツの性質によって、答えが変わります。
判断基準を一言でまとめると
「公開して読まれたいコンテンツは許可する。公開したくないコンテンツはそもそもウェブに置かない」
ウェブに公開した時点で、情報は世界中の人間とロボットに開かれています。AIクローラーだけを選択的に完全排除することは、構造的に難しい。であれば、AIに読まれることを前提にした設計をする方が、長期的に見て合理的な選択です。
この記事で伝えたかったこと
| よくある誤解 | 実際のところ |
|---|---|
| GPTBotをブロックすればChatGPTに引用されなくなる | 引用に関わるのはOAI-SearchBot。GPTBotだけのブロックでは引用は止まらない |
| ブロックすれば過去の学習データも消える | すでに学習されたデータを削除する手段はない。有効なのは今後の学習のみ |
| みんなブロックしているから自分もすべき | 許可しているサイトも相当数ある。目的によって判断は真っ二つに分かれる |
| robots.txtを書けば完全にブロックできる | robots.txtはお願い状。強制力はなく、無視するクローラーも存在する |
| 全部許可か全部ブロックの二択 | ページ単位・クローラー種類別の部分許可という第三の選択肢がある |
迷ったときの判断フロー
最終的に判断に迷ったときは、以下の順番で考えてみましょう。
- 守りたいコンテンツは何か——会員限定・有料・機密情報なら即ブロック
- AI検索からの引用を望むか——望むなら引用用クローラーは許可する
- 学習に使われることへの抵抗感はどの程度か——強いなら学習用だけ拒否する
- それでも不安なら——Cloudflareなど強制力のある手段を検討する
AIクローラーへの対応は、一度設定したら終わりではありません。AI検索の普及とともに、クローラーの種類も役割も変化し続けています。定期的に見直す習慣を持つことが、長期的なサイト運営の安定につながります。
サイトがAIにどの程度認識されているかを確認したい方は、12サイトのAI可視性を計測した実験データも参考にしてください。また、AIクローラーに正しく読まれるサイト設計の全体像はAIクローラーとは?引用されるサイト設計の基本と8つの対策にまとめています。
あなたのサイトは、
AIに見えていますか?
URLを入力するだけで30秒。8項目を自動診断し、優先度別の改善プランを提示します。完全無料・登録不要。