実装・技術解説 2026.05.15 17 min read

llms.txtとは?robots.txtとの違いとAIクローラーへの影響

llms.txtとrobots.txtの違いとAIクローラーへの影響を解説する記事のサムネイル
OBS-LOG / 2026.05.15
TABLE OF CONTENTS

サーバーログに llms.txt という文字列が現れるようになったのは、2024年後半あたりからです。
「AIにサイト構造を伝えるためのファイル」として注目され、設置するサイトも徐々に増えてきました。

一方で、「実際にAIクローラーが llms.txt を読んでいるのか」を、サーバーログベースで検証した日本語記事はほとんど見当たりません。

AI観測ラボでは、llms.txt設置後のアクセスログを継続観測しています。
GPTBot・Googlebot・AI-Observatory/1.0 は llms.txt を取得していましたが、PerplexityBot や ClaudeBot は、少なくとも観測期間中には取得を確認できませんでした。

この記事では、どのAIクローラーが llms.txt を取得していたのか、実測ログをもとに整理します。

この記事でわかること|📖:約8分

  • llms.txtがどんなファイルで、何のために存在するのか
  • robots.txtとの役割の違い
  • llms.txtとllms-full.txtの2種類の使い分け
  • GPTBot・Googlebot・AI-Observatory/1.0による実際の取得ログ

llms.txtとは何か

llms.txtは、サイトの内容をAI(大規模言語モデル・LLM)に伝えるためのテキストファイルです。サイトのルートディレクトリに配置することで、AIがサイト全体の構造や重要なページを把握しやすくすることを目的としています。

2024年9月、AI研究機関「Answer.AI」の共同創業者であるJeremy Howard氏によって提唱されました。現時点ではIETFやW3Cのような国際標準機関による正式な規格ではありません。

一方で、Anthropic・Cloudflare・Vercel・Stripeなどの技術系企業が導入を進めており、AI向けの新しい情報整理手法として徐々に広がり始めています。

ファイルの中身はMarkdown形式のプレーンテキストで構成されます。サイト概要・重要ページへのリンク・各コンテンツの説明などを記述するケースが多く、HTMLよりも構造が単純なため、AIが内容を整理しやすい形式とされています。

ちなみにllms.txtは「robots.txtのAI版」と説明されることがありますが、役割は大きく異なります。次のセクションで整理します。

llms.txtとrobots.txtの違い

llms.txtとrobots.txtは、どちらもサイトのルートディレクトリに配置するテキストファイルです。名前が似ているため混同されやすいですが、目的も役割も大きく異なります。

robots.txtは「クローラーの動きを制御する」ためのファイルです。どのページを巡回してよいか、どのページは巡回しないでほしいかを指示します。アクセスの許可・拒否を管理する仕組みであり、1994年から使われている歴史の長い標準的な仕組みです。

一方、llms.txtは「AIにサイトの内容を伝える」ためのファイルです。クローラーを止めたり許可したりする機能はなく、「このサイトはこういう内容で、重要なページはここです」とAIに案内する役割を持っています。

llms.txtとrobots.txtの役割の違いを示す比較図
robots.txtはクローラーの動きを制御し、llms.txtはAIにサイトの内容を伝える

2つの違いを表で整理すると、次のようになります。

robots.txt llms.txt
目的 クローラーの巡回を制御する AIにサイト内容を伝える
役割 アクセスの許可・拒否 サイト構造・内容の案内
形式 専用の記述ルール Markdown形式
標準化 RFC 9309(国際標準) 業界慣行(標準規格なし)
効力 多くのクローラーが遵守 読むかどうかはクローラー次第

特に重要なのは「効力」の違いです。robots.txtは、多くの検索エンジンクローラーが遵守する前提で設計されています。一方、llms.txtには強制力がなく、そもそも取得するかどうか自体がAIクローラー側の判断に委ねられています。

実際にAI観測ラボのサーバーログでも、llms.txtを取得していたクローラーと、取得していなかったクローラーが分かれていました。後のセクションで実測ログを整理します。

llms.txtとllms-full.txtの違い

llms.txtには、実は2種類のファイルが存在します。Jeremy Howard氏の提案には、当初から「llms.txt」「llms-full.txt」の2種類が含まれていました。日本語の記事ではllms.txtだけが取り上げられることが多いですが、用途が異なるため、両方を知っておくと設計の幅が広がります。

llms.txt llms-full.txt
役割 サイト全体の目次・概要 全コンテンツをまとめて提供することを想定
サイズ 小さい(数KB程度) 大きい(数百KB〜数MB)
用途 AIにサイト構造を把握させる AIにサイト全文を一括で読ませる
向いているサイト 記事数が多いメディア・ブログ ドキュメントサイト・技術仕様書

llms.txtは、「このサイトにはどんなページがあるのか」をAIに案内する役割を持っています。AIがサイト全体を俯瞰するための目次に近い存在です。

一方のllms-full.txtは、全記事・全ドキュメントの本文をまとめて提供することを想定したファイルです。AIに「サイト全体をまとめて読ませたい」場面で利用されます。

ブログやメディアサイトの場合、記事数が増えるとllms-full.txtのファイルサイズも大きくなります。Blogやメディアなど継続更新を行うサイトでは、まずllms.txtで構造を伝える設計のほうが現実的です。

逆に、技術ドキュメントサイトやAPIリファレンスのように、「全文をまとめてAIに渡したい」ニーズがあるサイトではllms-full.txtとの相性が良いと考えられます。実際に、技術系ドキュメントサイトでは、この考え方に近い構成が徐々に増え始めています。

ただllms-full.txtを実際にAIクローラーがどこまで取得・利用しているかは、現時点ではまだ観測事例が少なく、仕様自体も発展途上です。

AIクローラーは実際にllms.txtを読んでいるのか

「llms.txtを設置すればAIに読まれる」という説明をよく見かけます。ただ、実際にどのクローラーがllms.txtを取得しているのかを、サーバーログベースで検証した記事はほとんどありません。

AI観測ラボでは2026年1月にllms.txtを設置し、サーバーログを継続観測しています。設置直後から5月までの期間で、llms.txtファイル本体(/llms.txt)へのアクセスを全件抽出しました。

設置から約6週間、誰も読まなかった

llms.txt設置直後から3月上旬まで、llms.txtファイル本体へのアクセスはゼロでした。AI実験室#04(2026年3月11日公開)でも、「7日間サーバーログを観測したが、AIクローラーは誰も読んでいなかった」という結果を報告しています。

設置しただけでは即座に読まれるわけではない、というのが最初に得られた実測結果です。

3月:AI-Observatory/1.0が最初に取得

3月6日には、User-Agentが特定できない「Mozilla/5.0」のアクセスが1件確認されました。

その後、3月18日〜19日にかけてAI-Observatory/1.0が7件集中してllms.txtを取得しています。IPアドレスはすべてAWSバージニア北部のEC2でした。

AI-Observatory/1.0は、毎回/llms.txtだけを単体で取得する動きが特徴的です。サイト内の記事ページにはアクセスせず、llms.txtのみを収集していました。

5月:GPTBotとGooglebotが取得

5月8日午前7時40分、GPTBot/1.3が1件llms.txtを取得しました。リファラ(参照元)にはhttps://www.blog.ai-kansoku.com/が記録されており、トップページを起点にllms.txtへアクセスしていることがわかります。

同じIPアドレスは、llms.txt取得の前後に/llms-txt-guide//ai-lab-04-llms-txt-verification/といった関連記事も読んでいました。llms.txtという概念そのものを収集対象にしていた可能性があります。

5月10日午前8時8分には、Googlebot/2.1が1件llms.txtを取得しました。Googleがllms.txtをどう扱うかは公式に明示されていませんが、少なくともファイルの存在自体は認識していることが実測で確認できました。

読まなかったクローラー

同期間にAI観測ラボを巡回していたPerplexityBot・ClaudeBot・ChatGPT-Userは、llms.txtファイル本体を取得していませんでした。

PerplexityBotは/llms-txt-guide/という記事ページ自体は取得していましたが、llms.txtファイル本体にはアクセスしていません。

llms.txt設置から読まれるまでの時系列とクローラー別取得状況
1月設置後、約6週間は取得ゼロ。3月にAI-Observatory/1.0、5月にGPTBot・Googlebotが取得した

少なくとも今回の観測では、llms.txtは「設置すれば即座にAIに読まれるファイル」ではありませんでした。取得までには時間差があり、クローラーごとに対応状況も大きく分かれていました。

なぜ読まないクローラーが多いのか

実測ログでは、「読むクローラー」と「読まないクローラー」がはっきり分かれる結果になりました。なぜこうした差が生まれるのか、クローラーの設計と業界の現状から仮説を整理します。

クローラーごとに情報収集の設計が違う

実測ログを整理すると、AIクローラーには大きく3種類の巡回パターンが存在しているように見えます。

1つ目はsitemap起点型です。ClaudeBotはsitemap_index.xmlを起点に巡回する傾向があります。サイトマップから全ページのURLを把握できるため、llms.txtのような案内ファイルを参照する必要性が低い可能性があります。

2つ目は広く浅い均等巡回型です。PerplexityBotはサイト全体を広く浅く均等に巡回します。llms.txtで「優先ページはここです」と案内するより、サイト全体を自分で読み取りながら判断する設計に近い動き方です。

3つ目はリアルタイム取得型です。ChatGPT-Userは、ユーザーが質問したタイミングで必要なページをその場で取得します。事前にサイト全体の構造を把握する必要がなく、llms.txtのような事前案内ファイルとの相性が低いと考えられます。

一方で、llms.txtを取得していたGPTBotは、学習データ収集を目的とした巡回型クローラーです。サイト全体の構造を把握してから収集する動き方のため、llms.txtが情報収集の手がかりになりやすい設計と推測されます。

クローラーの情報収集パターンを3種類に分類した図解
sitemap起点型・均等巡回型・リアルタイム型の3パターン。設計の違いがllms.txtを読むかどうかに影響していると考えられる

llms.txtがまだ業界標準になっていない

もう1つの背景として、llms.txt自体がまだ標準規格ではないという現実があります。robots.txtはRFC 9309として国際標準化されており、多くのクローラーが遵守する仕組みが整っています。

一方、llms.txtは2024年9月に提唱されたばかりで、IETFやW3Cによる標準化はまだ行われていません。

クローラー開発側からすると、標準化されていないファイルへの対応を優先する理由が薄いという側面もあります。robots.txtほどの優先度で読みに来るクローラーがまだ少ないのは、こうした業界の現状も影響していると考えられます。

「llms.txtは意味がない」という結論ではなく、「クローラーごとの設計と業界の標準化状況によって、まだ扱いが統一されていない段階にある」というのが、今回の実測から見えた現状です。

それでもllms.txtを設置する意味

実測では、llms.txtを読まないクローラーも多く確認されました。しかも、llms.txtはまだ正式な標準規格ではありません。

それでもllms.txtを設置する意味はあるのでしょうか。AI観測ラボが設置を続けている理由を整理します。

GPTBotへの対応として現時点でも有効

実測でllms.txtを取得していたGPTBotは、ChatGPT系の学習・収集を担うクローラーです。ChatGPT関連の情報収集に対して、重要ページや優先コンテンツを整理して伝える入口として、llms.txtは現時点でも一定の意味があると考えられます。

AIエージェント時代への先行対応

ChatGPTやClaudeでは、Webを自律的に巡回して情報収集を行うAIエージェント機能が広がり始めています。

こうしたエージェントがサイトを読む際、llms.txtのようなMarkdown形式の案内ファイルがあることで、HTML構造を解析する負荷を減らしながら、必要な情報へたどり着きやすくなる可能性があります。

クローラー向けというより、「AIエージェント向けの情報整理」という観点では、今後価値が高まる可能性があります。

サイト構造をAIに伝える入口になる

llms.txtは、「このサイトが何を扱っているか」をAIに伝える最もシンプルな方法の1つです。

HTMLのように広告・ナビゲーション・フッターが混在せず、サイトの主旨と重要ページだけをクリーンな形で整理できます。クローラーが読む読まないに関わらず、AI向けの情報整理ファイルとして機能します。

今後の対応拡大に備えられる

llms.txtを巡る仕様整理や議論は徐々に増えています。今後、対応するクローラーやAIサービスが増える可能性もあります。

標準化や普及が進んだ後に慌てて設置するより、早い段階から運用しておくことで、観測データを蓄積しながらサイト設計を調整できます。

設置コストが低い

llms.txtは、Markdownファイルを1枚用意してルートディレクトリに配置するだけで導入できます。複雑な実装は不要で、既存サイトにも比較的追加しやすい仕組みです。

「今すぐ劇的な効果がある」とまでは言い切れません。ただ、設置コストが低く、今後対応クローラーが増えた場合には恩恵を受けられる可能性があります。

少なくとも現時点では、「動向を観測しながら設置しておく」という判断は十分合理的だと考えられます。

llms.txtの設置方法

llms.txtの具体的な書き方・設置手順・WordPressでの実装方法は、以下の記事で詳しく解説しています。

設置の流れだけ簡単に触れると、以下の3ステップです。

  1. Markdown形式でサイトの概要・重要ページへのリンクを記述する
  2. llms.txtというファイル名でサイトのルートディレクトリに設置する
  3. https://(ドメイン)/llms.txtにアクセスして表示されるか確認する

llms-full.txtを合わせて設置したい場合は、全記事・全ページの本文をMarkdown形式で1ファイルにまとめてllms-full.txtというファイル名で同じディレクトリに置きます。

記事数が多いサイトではファイルサイズが大きくなるため、まずllms.txtだけ設置して様子を見る進め方が現実的です。

まとめ

llms.txtは、サイトの内容をAIに伝えるためのMarkdown形式のテキストファイルです。クローラーの動きを制御するrobots.txtとは目的も役割も異なります。

AI観測ラボの実測ログから確認できたことを整理します。

  • 設置から約6週間、llms.txtを取得したクローラーはゼロだった
  • 最初に取得したのはAI-Observatory/1.0(3月・7件集中)
  • GPTBot/1.3が5月8日にトップページ起点で取得した
  • Googlebot/2.1が5月10日に取得した
  • PerplexityBot・ClaudeBot・ChatGPT-Userは期間中llms.txt本体を取得していない

読まないクローラーが多い背景には、sitemap起点型・均等巡回型・リアルタイム型といったクローラーごとの設計の違いと、llms.txtがまだ業界標準になっていないという2つの要因があると考えられます。

「設置すればすぐ読まれる」という期待とは異なる現実がある一方で、設置コストが低く、GPTBotへの対応や今後の標準化に備えた先行投資として有効な面もあります。

llms.txtをめぐる状況は現在も動いています。AI観測ラボでは引き続きサーバーログを観測し、取得クローラーの変化があれば記録していきます。

設置の具体的な手順はllms.txtの書き方【テンプレコピペOK】をご覧ください。robots.txtとの設定の組み合わせについてはrobots.txt完全ガイド|AIクローラー制御もあわせて参考にしてください。

Free Diagnostic Tool

あなたのサイトは、
AIに見えていますか?

URLを入力するだけで30秒。8項目を自動診断し、優先度別の改善プランを提示します。完全無料・登録不要。