AIクローラーの許可・拒否設定【robots.txt実例付き】
robots.txtとは?なぜAI時代に重要なのか
「良い記事を書いているのに、ChatGPTやPerplexityに全然引用されない」——そう感じているなら、robots.txtの設定を見直すだけで状況が変わるかもしれません。
robots.txtは、検索エンジンやAIクローラーに対して「このページは読んでいいよ」「このページは読まないで」と指示を出すファイルです。サイトのルートディレクトリ(例:https://example.com/robots.txt)に設置します。
従来はGoogleやBingなどの検索エンジン向けに使われていましたが、AI時代の今、ChatGPT、Claude、Perplexityなどの生成AIも、このrobots.txtを読んでサイトをクロールするかどうかを判断しています。
つまり、robots.txtの設定次第で、あなたのサイトがAIに引用されるかどうかが決まるのです。正しく設定しないと、せっかくの良質なコンテンツがAIに見つけてもらえないかもしれません。
robots.txtの基本構文
robots.txtは非常にシンプルな構文で書かれています。主な要素は以下の3つです。
User-agent(誰に対する指示か)
User-agent: *
「*(アスタリスク)」は「すべてのクローラー」を意味します。特定のクローラーだけに指示を出したい場合は、クローラーの名前を指定します。
User-agent: GPTBot
User-agent: CCBot
User-agent: ClaudeBot
Disallow(クロールを禁止するパス)
Disallow: /admin/
Disallow: /private/
指定したディレクトリやファイルへのアクセスを禁止します。
Allow(クロールを許可するパス)
Allow: /public/
Allow: /blog/
Disallowで禁止したエリア内でも、特定のパスだけ許可したい場合に使います。
AI時代の新常識:主要なAIクローラー一覧
2024年以降、以下のようなAIクローラーがあなたのサイトを訪れています。
- GPTBot – OpenAI(ChatGPT)のクローラー
- ChatGPT-User – ChatGPTのブラウジング機能
- CCBot – Common Crawl(多くのAIが学習データとして使用)
- ClaudeBot – Anthropic(Claude)のクローラー
- PerplexityBot – Perplexity AIのクローラー
- Googlebot – Google検索&Gemini
- Bingbot – Bing検索&Copilot
これらのクローラーを適切に管理することが、AI時代のSEO対策の基本です。
実践例:パターン別robots.txtの書き方
✅ パターン1:すべてのAIに全ページを許可(推奨)
User-agent: *
Disallow:
Sitemap: https://example.com/sitemap.xml
最もシンプルで、AI時代に最適な設定です。すべてのクローラーにサイト全体へのアクセスを許可し、sitemapで効率的なクロールを促します。
✅ パターン2:特定のAIだけ許可
# OpenAIのクローラーのみ許可
User-agent: GPTBot
Allow: /
# その他のAIは禁止
User-agent: CCBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
# Google検索は許可
User-agent: Googlebot
Allow: /
Sitemap: https://example.com/sitemap.xml
特定のAIサービスだけに情報提供したい場合に有効です。ただし、将来的に新しいAIクローラーが登場した際に、個別に設定が必要になります。
✅ パターン3:管理画面やプライベートエリアを保護
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /private/
Disallow: /draft/
Allow: /
Sitemap: https://example.com/sitemap.xml
公開したくないエリアだけを明示的にブロックし、それ以外はすべて許可します。WordPressなどのCMSを使っている場合におすすめです。
❌ 悪い例:過度なブロック
User-agent: *
Disallow: /blog/
Disallow: /news/
Disallow: /articles/
せっかくの良質なコンテンツをブロックしてしまっています。AIに見つけてもらいたいコンテンツは、必ず許可しましょう。
よくある間違いと対処法
間違い1:構文エラー
❌ User-agent:GPTBot(スペースなし)
✅ User-agent: GPTBot(コロンの後にスペース)
❌ Disallow /admin/(コロンなし)
✅ Disallow: /admin/(コロンが必要)
間違い2:優先順位を理解していない
robots.txtでは、より具体的なルールが優先されます。
User-agent: *
Disallow: /blog/
User-agent: GPTBot
Allow: /blog/
この場合、GPTBotには/blog/へのアクセスが許可されます。
間違い3:大文字・小文字を間違える
クローラー名は大文字・小文字を区別します。
❌ User-agent: gptbot
✅ User-agent: GPTBot
robots.txtの設置と確認方法
設置場所
robots.txtは必ずサイトのルートディレクトリに置いてください。
✅ https://example.com/robots.txt
❌ https://example.com/blog/robots.txt
❌ https://example.com/files/robots.txt
確認方法
- ブラウザで「https://あなたのドメイン/robots.txt」にアクセス
- ファイルが表示されればOK
- 構文チェックにはAI観測ラボの診断ツールが便利です
AI観測ラボで今すぐチェック!
あなたのサイトのrobots.txtは正しく設定されていますか?
AI観測ラボの無料診断ツールを使えば、わずか30秒でrobots.txtの設定状況をチェックできます。
- robots.txtが存在するか
- AIクローラーに対する設定は適切か
- 構文エラーがないか
- 改善すべきポイントは何か
これらすべてを自動診断し、具体的な改善案を提示します。
まとめ:AI時代のrobots.txt運用のポイント
AI時代のrobots.txtで押さえるべきポイントは以下の5つです。
- 基本は全許可 – 特別な理由がない限り、すべてのAIクローラーを許可する
- 主要AIクローラーを把握 – GPTBot、CCBot、ClaudeBotなどの存在を知る
- 管理画面は保護 – /admin/や/wp-admin/は確実にブロック
- Sitemapを必ず記載 – 効率的なクロールを促進
- 定期的に見直し – 新しいAIクローラーが登場したら対応する
robots.txtは一度設定したら終わりではありません。AI技術の進化に合わせて、定期的に見直すことが重要です。
まずはAI観測ラボで現状をチェックして、改善の第一歩を踏み出しましょう!
あなたのサイトは、
AIに見えていますか?
URLを入力するだけで30秒。8項目を自動診断し、優先度別の改善プランを提示します。完全無料・登録不要。