実装・技術解説 2026.04.11 13 min read

ByteSpiderとは?世界最多リクエストのAIクローラーをログで調べた

ByteSpiderとは?
OBS-LOG / 2026.04.11
TABLE OF CONTENTS

サーバーログを開くと、見慣れない名前が大量に並んでいました。

「Bytespider」——GPTBotでもCludeBotでもない、このクローラーは何者なのか。
調べてみると、TikTokを運営するByteDanceが動かすAIクローラーで、Cloudflareの調査では世界中のAIクローラーのなかでリクエスト数が最多という事実が見えてきました。

日本ではまだほとんど語られていませんが、あなたのサーバーにもすでに来ている可能性が高いクローラーです。実測データをもとに、ByteSpiderの正体と挙動を整理します。

この記事でわかること|📖:約8分

  • ByteSpiderがどの会社の何のために動いているクローラーなのか
  • GPTBotやCludeBotと何が違うのか、取得するファイルの種類まで含めた比較
  • 実際のサーバーログで見えたアクセス件数・挙動・robots.txtへの反応
  • 許可すべきか拒否すべきか、robots.txt設定のコピペ例

ByteDanceとは

ByteDanceが運営するTikTok・Doubao・今日頭条の関係を示した図解
ByteDanceはTikTokだけでなく、AIチャットボットDoubaoやニュースアプリ今日頭条など複数のサービスを運営している

ByteSpiderを理解するには、まず運営元のByteDanceを知っておく必要があります。

ByteDanceは2012年に中国で設立されたテクノロジー企業です。日本でもなじみのあるTikTok(中国版は抖音/Douyin)を運営していますが、それ以外にも中国最大級のニュースアプリ「今日頭条(Jinri Toutiao)」や、AIチャットボット「Doubao(豆包)」など、多数のサービスを展開しています。

Doubaoとは何か

Doubaoは、ByteDanceが開発した大規模言語モデル(LLM)およびAIチャットボットです。ChatGPTの競合にあたる中国発のAIサービスで、中国国内では2025年時点で月間アクティブユーザーが1億5,700万人を超え、トークン処理量はChatGPT対抗モデルのなかでも最大規模に達しています

ByteSpiderは、このDoubaoを含むByteDanceのAIサービス全体の学習データを集めるために動いているクローラーです。

ByteSpiderとは

ByteSpiderは、ByteDanceが運営するWebクローラーです。インターネット上のコンテンツを収集し、DoubaoをはじめとするByteDanceのAIサービスの学習データとして活用することを目的に動いています。

ユーザーエージェント(UA)の文字列

サーバーログでByteSpiderを識別するには、ユーザーエージェント(UA)を確認します。ByteSpiderのUAには必ず「Bytespider」という文字列と、ByteDanceの連絡先メールアドレスが含まれています。

Mozilla/5.0 (compatible; Bytespider; spider-feedback@bytedance.com)

UAにフィードバック用のメールアドレスが記載されているのは、GPTBotやCludeBotと同じ作りです。ログで「Bytespider」という文字列を見つけた場合、ByteSpiderからのアクセスと判断できます。

Cloudflareの調査で世界1位

ByteSpiderの規模感を示す数字があります。CDNサービスを提供するCloudflareが自社ネットワーク上のAIクローラートラフィックを調査したところ、リクエスト数の1位はByteSpiderでした。GPTBot・ClaudeBot・Amazonbotを上回り、世界中のAIクローラーのなかで最も多くのリクエストを送っているクローラーです。

AIクローラーの種類とシェアの全体像は、AIクローラーの種類と最新シェアを比べてみたでまとめています。

他のAIクローラーとの違い

GPTBotやCludeBotと比べたとき、ByteSpiderには明確な違いがあります。取得するファイルの種類が広い点です。

クローラー 運営元 主な目的 HTML CSS 画像
ByteSpider ByteDance Doubao学習
GPTBot OpenAI ChatGPT学習
ClaudeBot Anthropic Claude学習
Applebot Apple Siri・検索

HTMLだけを取得する他のAIクローラーと異なり、ByteSpiderはCSSファイルや画像ファイルまで積極的に取得します。実測ログでもこの挙動を確認しています。

サーバーログで実測した

AI観測ラボのサーバーログでByteSpiderのアクセスを集計しました。対象期間はサービス開始の2026年1月から4月までの全期間です。

アクセス件数

全期間のアクセス件数は1,018件、4月分だけで52件でした。同期間のGPTBot(133件)・ClaudeBot(153件)と比べると、圧倒的に多いアクセス数です。

クローラー 全期間アクセス数
ByteSpider 1,018件
ClaudeBot 153件
GPTBot 133件

CSSファイルまで取得していた

ログで最も目を引いたのは、CSSファイルへのアクセスです。以下のファイルをそれぞれ6回取得していました。

他のAIクローラーとの取得ファイル比較

クローラー HTML CSS 画像 JavaScript
ByteSpider
Applebot
GPTBot
ClaudeBot
6 /wp-content/themes/generatepress/assets/css/main.min.css
6 /wp-content/themes/generatepress-child/style.css
6 /wp-content/themes/generatepress-child/css/observatory-common.css
6 /wp-content/themes/generatepress-child/css/articles.css

GPTBotやCludeBotはHTMLしか取得しません。ApplebotはCSS・JavaScriptまで取得するレンダリングクローラーですが、ByteSpiderはCSSは取得するものの、JavaScriptは取得していませんでした。HTML+CSSを読むセミレンダリング型の挙動といえます。

Applebotがレンダリングクローラーである実測については、ApplebotはレンダリングクローラーだったことをAI実験室#10で確認しています。

画像ファイルも積極的に取得

CSSに加えて、画像ファイル(.webp)も積極的に取得していました。768px幅のサムネイル画像を中心に、複数の記事画像をそれぞれ5回ずつ取得しています。

5 /wp-content/uploads/2026/03/rag-good-source-site-design_hero-768x428.webp
5 /wp-content/uploads/2026/03/ai-crawler-user-agent-hero-768x429.webp
5 /wp-content/uploads/2026/02/markdown-ai-crawler-hero-768x428.webp

robots.txtは19回確認していた

robots.txtへのアクセスは19回確認できました。「ByteSpiderはrobots.txtを無視する」という報告が多く見られますが、AI観測ラボのログでは確認動作はおこなっていました。

ただしAI観測ラボのrobots.txtはByteSpiderを許可する設定のため、確認後に従うかどうかは今回の実測では判断できません。完全にブロックしたい場合は、robots.txtの設定だけに頼らずCloudflareのWAFなどサーバーレベルでの対応を合わせて検討してください。

robots.txtの設定とAIクローラーの関係は、AIクローラーの許可・拒否設定でまとめています。

ByteSpiderは許可すべきか、拒否すべきか

結論から言うと、日本語サイトであれば現時点では「どちらでもよい」というのが正直なところです。理由を整理します。

許可する場合のメリット

ByteSpiderはDoubaoの学習データ収集が目的です。Doubaoは中国国内で月間アクティブユーザーが1億5,700万人を超える大規模なAIサービスですが、日本国内での普及はまだ限定的です。将来的にDoubaoが日本市場に本格展開した場合、今からコンテンツを学習させておくことで引用される可能性が生まれます。

拒否する場合のメリット

ByteSpiderのアクセス頻度は他のAIクローラーと比べて圧倒的に多く、サーバーへの負荷になります。AI観測ラボでも全期間1,018件と、GPTBot(133件)やClaudeBot(153件)の約7倍のアクセスがありました。Doubaoが日本語コンテンツを引用する検索機能を日本向けに提供していない現状では、拒否してもGEO上のデメリットはほぼありません。

robots.txtを無視するケースがある

他サイトの報告では、ByteSpiderがrobots.txtの拒否設定を無視してクロールを続けるケースが確認されています。AI観測ラボのログでは許可設定のため検証できていませんが、拒否設定をしても完全にブロックできない可能性があります。確実にブロックしたい場合は、Cloudflareの※WAFなどサーバーレベルでの対応が必要です。

※WAF(Web Application Firewall):Webサイトへの不正アクセスや特定のボットをサーバーレベルでブロックするセキュリティの仕組みです。

AIクローラーをブロックする前に知っておきたいことは、AIクローラーを拒否する前に知っておくべきことにまとめています。

robots.txtの設定方法

ByteSpiderに対してrobots.txtで許可・拒否を設定する方法をまとめます。コピーしてそのまま使えます。

許可する場合

User-agent: Bytespider
Allow: /

拒否する場合

User-agent: Bytespider
Disallow: /

UAの文字列は「Bytespider」(Bは大文字・以降は小文字)です。サーバーログで識別するときも同じ文字列を使います。

前述のとおり、ByteSpiderはrobots.txtの設定を無視するケースが報告されています。確実にブロックしたい場合は、robots.txtの設定に加えてCloudflareのWAFでUAをフィルタリングする方法が有効です。

robots.txtの書き方とAIクローラーへの設定全般は、AIクローラーの許可・拒否設定【robots.txt実例付き】で詳しく解説しています。

まとめ

ByteSpiderについて、実測データをもとに整理しました。

  • ByteSpiderはTikTok親会社ByteDanceが運営するAIクローラーで、Doubaoなどの学習データ収集が目的
  • Cloudflareの調査では世界のAIクローラーのなかでリクエスト数が最多
  • AI観測ラボのサーバーログでは全期間1,018件のアクセスを確認。GPTBot・CludeBotの約7倍
  • CSSファイルと画像ファイルまで取得する。HTMLしか取らない他のAIクローラーとは挙動が異なる
  • robots.txtは19回確認していたが、設定を無視してクロールするケースも報告されている
  • 日本語サイトへのGEO上のメリットは現時点では限定的。サーバー負荷を考慮して拒否設定も選択肢

ByteSpiderはすでに多くの日本語サイトに来ています。サーバーログで「Bytespider」という文字列を探してみると、自分のサイトへのアクセス状況を確認できます。

サーバーログでAIクローラーを確認する方法は、GA4に出ないAI流入はこう拾うでまとめています。

Free Diagnostic Tool

あなたのサイトは、
AIに見えていますか?

URLを入力するだけで30秒。8項目を自動診断し、優先度別の改善プランを提示します。完全無料・登録不要。