AI実験室 2026.04.05 12 min read

AIクローラーはHTMLしか読まない—ただApplebotだけは違った【AI実験室 #10】

AI実験室#10 Applebotだけがレンダリングするクローラーだった
OBS-LOG / 2026.04.05
TABLE OF CONTENTS

AIクローラーはHTMLしか読まない——そう思っていた。

GPTBotもClaudebotも、サーバーログを見るかぎりHTMLファイルを取得してすぐ帰っていきます。CSSやJavaScriptのファイルを取りに来ることはほとんどありません。

ところがある日、ログに見慣れない動きが記録されていました。CSSファイルを6回、JavaScriptファイルを6回——まるで人間がブラウザでページを開いたときのような取得パターンです。

送信元IPをすべて確認すると、17.x.x.x帯。Apple公式のIPレンジと完全に一致していました。

Applebotでした。

AIクローラーの中で、Applebotだけがブラウザ相当の環境でページをレンダリングします。なぜそういう設計になっているのか。Apple Intelligenceとどう関係するのか。サーバーログの実測データとApple公式ドキュメントをもとに整理しました。

この記事でわかること|📖:約8分

  • ApplebotがCSS・JavaScriptまで取得する唯一のAIクローラーである理由
  • ApplebotとApplebot-Extendedの2層構造と、Apple Intelligenceへの接続
  • サーバーログで確認したCSS×6・JS×6の実測データ
  • robots.txtでApplebot-Extendedの学習利用をオプトアウトする方法

Applebotとは何か——2層構造の全体像

Applebotは、Appleが運営するWebクローラーです。iPhoneやMacに搭載されているSiriやSpotlight(デバイス内の検索機能)が「Web上の情報」を返すとき、その情報を集めているのがApplebotです。

Googleで言えば、Googlebotに相当する存在です。

Applebotは2015年に存在が公式に確認されました。当初はSiriとSpotlightのための検索クローラーとして動いていましたが、Apple Intelligenceの登場によって役割が広がりました。現在は大きく2つの用途で動いています。

Applebot——検索・Siri向けのクローラー

Webページを巡回してコンテンツを収集し、SpotlightやSiriの検索結果に反映させます。一般的な検索エンジンのクローラーと同じ役割です。

Applebot-Extended——Apple Intelligence学習用の制御フラグ

Applebotが集めたデータを、Apple Intelligenceのような生成AIモデルの学習に使ってよいかどうかを決める仕組みです。

重要なのは、Applebot-Extended自体はクロールしないという点です。実際にWebを巡回するのはApplebotで、Applebot-Extendedは「そのデータをAI学習に使う範囲」を制御するためだけに存在します。

robots.txtに以下を追記すると、AI学習への利用をオプトアウトできます。SpotlightやSiriの検索結果には引き続き表示されます。

User-agent: Applebot-Extended
Disallow: /
ApplebotとApplebot-Extendedの2層構造。上段がApplebot(クロール担当)、下段がApplebot-Extended(AI学習利用の制御フラグ)
ApplebotとApplebot-Extendedの役割分担

実測ログ——CSS×6・JS×6が残っていた

AI観測ラボのサーバーログを確認したところ、通常のAIクローラーとは明らかに異なる取得パターンが記録されていました。

実際のUser-Agent

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1)

末尾にApplebot/0.1と明記されています。一見するとMacのSafariブラウザそのものですが、Applebotが使用するUser-Agentの正式なフォーマットです。

IPアドレスで本物か確認した

User-Agentは偽装できます。そのため、送信元のIPアドレスも確認しました。

記録されていたIPはすべて17.x.x.x帯。Appleが公式に公開しているIPレンジと完全に一致していました。本物のApplebotであることが確定します。

他のAIクローラーとの取得パターンの違い

最も目を引いたのは、取得したファイルの種類です。ログには以下が記録されていました。

  • CSSファイル:6回取得
  • JavaScriptファイル:6回取得

GPTBotやClaudebotはHTMLファイルを取得して終わります。CSSやJavaScriptを取りに来ることはほぼありません。Applebotの動きは、人間がブラウザでページを開いたときの挙動に近い挙動でした。

Applebotは HTML・CSS・JSをすべて取得。GPTBot・ClaudeBotはHTMLのみ取得でCSS・JSは取得しない
サーバーログで確認した取得パターンの比較

なぜApplebotだけがレンダリングするのか——他クローラーとの比較

AIクローラーの多くはHTMLだけを取得します。なぜApplebotだけが異なる動きをするのでしょうか。Apple公式ドキュメントに答えがありました。

「Applebotはブラウザ内でWebサイトのコンテンツをレンダリングする場合があります。JavaScript、CSS、その他のリソースがrobots.txtでブロックされている場合は、コンテンツを適切にレンダリングできない場合があります。」

さらにAppleの機械学習研究チームは、学習データの収集について次のように発表しています。

「ヘッドレスレンダリングを強化し、フルページ読み込み・動的コンテンツのインタラクション・JavaScript実行を可能にした。」

つまりApplebotは、ヘッドレスブラウザ(画面を表示しないブラウザ)を使ってページを丸ごと読み込む設計になっています。JavaScriptで動的に生成されるコンテンツも、CSSで表示・非表示が切り替わる要素も、すべて取得できます。

他のAIクローラーと並べると、違いがはっきりします。

クローラー HTML取得 CSS取得 JS取得・実行 用途
Applebot Siri・Spotlight・Apple Intelligence
GPTBot ChatGPT学習用
ClaudeBot Claude学習用
Googlebot Google検索インデックス

AIクローラーの中でレンダリングまで行うのはApplebotだけです。Googlebotと同等の能力を持つクローラーが、AI学習の文脈でも動いていることになります。

Applebot・GPTBot・ClaudeBot・Googlebotの4クローラー比較。HTML・CSS・JSの取得可否を一覧表示。ApplebotとGooglebotのみ全項目取得可能
AIクローラーのレンダリング能力比較

Apple Intelligenceとの接続——Applebot-Extendedの役割

Applebotが集めたデータは、検索結果だけに使われているわけではありません。Apple公式ドキュメントには次のように明記されています。

「Applebotによってクロールされたデータは、Apple Intelligence、各種サービス、デベロッパツールなどの生成AI機能を実現しているAppleの基盤モデルのトレーニングにも使用される場合があります。」

つまりApplebotがサイトを訪れるということは、そのコンテンツがSiriやSpotlightの検索結果だけでなく、Apple Intelligenceの学習データになる可能性があるということです。

学習への利用を断りたい場合はApplebot-Extendedを使う

「検索結果には出てほしいけれど、AI学習には使ってほしくない」という場合、Applebot-Extendedをrobots.txtで制御します。

Applebot-Extended自体はWebをクロールしません。Applebotが集めたデータを「AI学習に使ってよいか」を決めるための制御フラグとして機能します。

robots.txtに以下を追記すると、AI学習へのデータ利用をオプトアウトできます。

User-agent: Applebot-Extended
Disallow: /

設定後もApplebotのクロール自体は継続します。SpotlightやSiriの検索結果への表示には影響しません。

GPTBotのオプトアウトと何が違うのか

GPTBotをrobots.txtで拒否すると、クロール自体を止めることになります。ChatGPTの検索結果にも出なくなる可能性があります。

Applebot-Extendedの場合は「クロールは許可するが学習には使わせない」という細かい制御ができます。検索への露出を維持しながらAI学習だけを断れる、現時点では珍しい設計です。

Applebotのクロールデータが2方向に分岐。上がSpotlight・Siri検索結果、下がApple Intelligence学習データ。下の分岐はApplebot-Extended Disallowで遮断可能
Applebotのデータフローと学習利用の制御

サイト運営者がやるべきこと——robots.txtの設定

Applebotの動きを理解したうえで、サイト運営者として取れる選択肢は3つあります。

パターン1:何もしない(現状維持)

robots.txtにApplebotの記述がない場合、ApplebotはGooglebotへの指示に従います。Googlebotを許可していれば、Applebotも自動的に許可された状態になります。

SpotlightやSiriの検索結果に表示され、Apple Intelligenceの学習データにも使われる可能性があります。特に問題がなければ、何もしなくて構いません。

パターン2:クロールは許可、AI学習だけ断る

検索結果への表示は維持しながら、Apple Intelligenceの学習利用だけをオプトアウトしたい場合の設定です。

User-agent: Applebot
Allow: /

User-agent: Applebot-Extended
Disallow: /

現時点でAI学習へのデータ提供に慎重なサイト運営者には、最もバランスの取れた選択肢です。

パターン3:クロール自体を拒否する

ApplebotによるクロールをすべてブロックしたI場合の設定です。SpotlightやSiriの検索結果に表示されなくなります。

User-agent: Applebot
Disallow: /

Apple製品ユーザーへの露出がなくなるため、よほどの理由がないかぎり推奨しません。

CSS・JSはブロックしない

Applebotはレンダリングを行うクローラーです。robots.txtでCSSやJavaScriptをブロックしていると、ページを正しく読み込めず、インデックスの精度が下がる可能性があります。

Googlebotと同様に、CSS・JavaScriptはApplebotにも解放しておくことをおすすめします。

robots.txtの基本的な書き方については「AIクローラーの許可・拒否設定【robots.txt実例付き】」で詳しく解説しています。

まとめ

サーバーログに残っていたCSS×6・JS×6の取得記録から、Applebotの動きを追いました。

わかったことを整理します。

  • ApplebotはAIクローラーの中で唯一、CSS・JavaScriptまで取得してレンダリングする
  • ヘッドレスブラウザを使っており、人間がブラウザでページを開いたときと同じ動きをする
  • 取得したデータはSiri・Spotlightの検索結果だけでなく、Apple Intelligenceの学習にも使われる
  • AI学習への利用だけを断りたい場合は、Applebot-ExtendedをDisallowする
  • CSS・JavaScriptをrobots.txtでブロックしていると、Applebotのインデックス精度が下がる可能性がある

「AIクローラーはHTMLしか読まない」は、Applebotには当てはまりません。Apple製品のユーザーにコンテンツを届けたい場合、Googlebotと同じ感覚でCSS・JavaScriptを解放しておくことが出発点になります。

Applebotが実際にどのくらいの頻度でサイトを訪れているか、AI観測ラボでは引き続きログを取って観測していきます。

AIクローラー全体の許可・拒否設定については「AIクローラーの許可・拒否設定【robots.txt実例付き】」を、AI引用のための基本設定チェックリストは「AIに引用されるサイト、基本設定8項目チェックリスト」をあわせてご覧ください。

Free Diagnostic Tool

あなたのサイトは、
AIに見えていますか?

URLを入力するだけで30秒。8項目を自動診断し、優先度別の改善プランを提示します。完全無料・登録不要。