AI実験室 2026.02.22 13 min read

ノイズだらけのHTMLをAIに読ませたら、どこまで正確に理解できるのか?【AI実験室 #01】

ノイズだらけのHTMLを AIに読ませたアイキャッチ画像
OBS-LOG / 2026.02.22
TABLE OF CONTENTS

冨島 基宏

Motohiro Tomishima
AI実験室 著者

Webデザイン・ECサイト運営を経て、AIと検索の変化に興味を持ち観測を開始。「作りながら確かめる」スタイルで、生成AIがウェブをどう読むかを記録し続けている。理論より、手を動かした結果を重視。

Webデザイン
ECサイト運営
AI検索
生成AI観測
サイト設計

AI実験室、最初の観測記録です。

「AIクローラーに読まれやすいサイト設計」を語るブログとして、一度は自分で手を動かして確かめてみたかった。今回はそのファーストステップ。ノイズだらけのHTMLをAIに読ませたら、内容をどこまで正確に理解できるのか?を実際に試してみました。

結論から言うと「AIはノイズをほぼ無視できる。でも、処理速度には数値として出る影響があった」です。そして実験中、予想外の出来事も起きました。

この記事でわかること

  • ノイズの多いHTMLでも、AIは本文をどこまで正確に拾えるのか
  • ChatGPT・Claude・Geminiで応答速度にどれだけ差が出るのか(実測値あり)
  • Geminiがノイズ版を「処理できない」と拒否した件について
  • “クリーンな構造”が効くのは精度よりも処理コストかもしれない、という示唆

※ 今回は「URLを渡して読ませる」方式の観察です。実際のクローリング挙動とは一致しない可能性があります。


そもそも「ノイズの多いHTML」ってなに?

ふつうのウェブページには、本文以外にも大量のHTMLが含まれています。

  • ヘッダーナビゲーション
  • フッター・サイドバー
  • 広告スロットとそのスクリプト
  • SNSシェアボタン
  • コメントフォーム
  • 意味のない装飾用divの入れ子
  • Google Tag ManagerやGA4のトラッキングコード

読者には見えないか、あるいは本文と無関係な要素たちです。でもHTMLとしては全部同じファイルの中に存在している。AIがページを読む時、こういった「ノイズ」をどう扱っているのか、ずっと気になっていました。


実験の設計

比較するページ

今回は当ブログの記事「AIクローラーとは?引用されるサイト設計の基本と8つの対策」を使いました。

  • 元記事:通常のWordPressページ(標準的なHTML構造)
  • ノイズ版:同じ本文に、広告コード×5、nav/footer/サイドバー完全版、SNSシェアボタン上下2箇所、コメントフォーム、4重ネストのdiv、複数のscriptタグ、ニュースレター登録フォームなどを大量追加した検証用ページを別途公開

ノイズ版は実際にサイトへ投稿し、同じURLで各AIにアクセスさせました。

検証に使用したページ:AIクローラーとは?引用されるサイト設計の基本と8つの対策

ノイズ版(検証用):【検証用】AIクローラーとは?

使ったプロンプト

以下のページを読んで、この記事の主な主張を3点にまとめてください。
[URL]

シンプルに「主張を3点で」だけ。要約の正確さとノイズの混入具合を見るのに十分な指示です。毎回新しいチャットで投げることで、会話履歴の影響を排除しました。

実施AI

  • ChatGPT(GPT-4o、ブラウジング機能オン)
  • Claude(Sonnet 4.6)
  • Gemini

応答速度の計測結果

今回は要約の内容だけでなく、応答時間もストップウォッチで計測しました。送信ボタンを押した瞬間から回答が完了するまでの時間を、各条件で新しいチャットを開いて記録しています。

条件 応答時間 通常版との差
ChatGPT 通常版 3.4秒
ChatGPT ノイズ版 4.2秒 +1.2秒(+43%)
Claude 通常版 3.0秒
Claude ノイズ版 4.1秒 +1.1秒(+37%)
Gemini 通常版 4.7秒
Gemini ノイズ版 回答拒否(後述)

※ 各条件2回計測。ネットワーク環境やモデルの状態により変動します。参考値としてご覧ください。

ChatGPTもClaudeも、ノイズ版では約40%遅くなりました。秒数だけ見ると1秒ちょっとの差ですが、率として見ると無視できない数字です。

そして、Geminiで予想外のことが起きました。


Geminiがノイズ版を拒否した

ノイズ版のURLをGeminiに投げたところ、こんな返答が来ました。

「大規模言語モデルとして私はまだ学習中であり、そちらについてお手伝いできる機能がありません。」

正直、笑ってしまいました。ChatGPTもClaudeも普通に処理したページを、Geminiだけ「無理」と判断した。

おそらく、ノイズ量がGeminiの「本文らしさ」判定のしきい値を下回ったのだと思います。ページ全体の情報量に対して本文の割合が低すぎると、安全側に倒して回答しない——そういう設計なのかもしれない。ChatGPTやClaudeよりノイズへの許容度が厳しめに設定されているという可能性があります。

これはAI実験室の次の実験テーマになりそうです。ノイズを少しずつ減らしていったとき、Geminiはどこで回答するようになるのか。

Perplexityも拒否した

Perplexityに「指定いただいたURLのページ本文をこちらから直接読むことができない」と表示された画面
Perplexityもノイズ版を「読めない」と判断した。

Geminiの件を記録した後、Perplexityにも同じノイズ版のURLを投げてみました。

返ってきたのはこんな返答でした。

「指定いただいたURLのページ本文をこちらから直接読むことができないため、記事の内容を把握できていません。」

GeminiとPerplexity、2つのAIが同じノイズ版を「読めない」と判断したことになります。

ただし興味深いのは、その後Geminiに再度同じURLを投げたところ、今度は普通に読めました。AIの挙動は固定ではなく、モデルのアップデートや状態によって変わる可能性があります。

「読めない」という結果も、時間が経てば変わる。これ自体が観察として記録しておく価値があると感じました。


実験結果:要約の内容比較

ChatGPT の回答

元記事版:

  1. AIクローラーは検索エンジン用クローラーとは異なり、生成AIに情報を正しく理解・引用させるために重要な存在である
  2. AIクローラーにサイトを正しく巡回・理解させるための具体的な対策が必要である(robots.txt、sitemap、メタタグ、構造化データなど)
  3. 最終的には、高品質で構造が明確なコンテンツを継続して発信することが、AI時代のサイト最適化の本質である

ノイズ版:

  1. AIクローラーはAI回答の文脈で参照されるための前提条件である
  2. robots.txtの適切な設定、sitemap.xml、メタタグ、構造化データ、llms.txtなど、ステップを踏んだ対策を具体的に解説している
  3. ただ単にクロールされるだけでなく、コンテンツ構造や意味まで機械に伝わるよう設計し、信頼性の高い情報を継続的に発信することが本質

主張の内容自体は正確。ただノイズ版では各点の説明が長くなり、「llms.txt」など具体的な施策名まで混入し始めました。要約の粒度が少し荒くなった印象です。

Claude の回答

元記事版:

  1. AIクローラーは検索エンジンのクローラーと根本的に異なり、「理解して引用する」ために巡回する
  2. AIに引用されるためには技術的な対策を優先度順に実施する必要がある
  3. AI時代の本質は「情報を正しく届ける設計」であり、コンテンツの質と信頼性が最終的な差を生む

ノイズ版:

  1. AIクローラーは検索エンジンのクローラーと根本的に異なり、「理解して引用する」ために巡回する
  2. AIに引用されるためには技術的な対策を優先度順に実施する必要がある
  3. AI時代の本質は「情報を正しく届ける設計」であり、コンテンツの質と信頼性が最終的な差を生む

ほぼ同じ。Claudeはノイズ版でも要約の質がほとんど変わりませんでした。


4パターン比較まとめ

項目 ChatGPT
元記事
ChatGPT
ノイズ版
Claude
元記事
Claude
ノイズ版
主張の正確さ
ノイズの混入 なし なし なし なし
要約の簡潔さ △ やや冗長
応答速度 3.0秒 4.2秒 ⚠️ 3.0秒 4.1秒 ⚠️

※△ = ノイズ版でChatGPTの要約がやや冗長に。施策名(llms.txtなど)が混入。


観察したこと

① AIはナビや広告を「読んでいない」

nav、フッター、サイドバー、広告テキスト、コメントフォームのラベル……これらは4パターンすべてで要約に一切混入しませんでした。現代のAIは本文と非本文をある程度自動で区別できていると考えられます。

少なくとも「ノイズがあると意味不明な要約が返ってくる」ということはなかった。これは正直、予想より優秀でした。

② でも応答速度には約40%の差が出た

これが今回いちばん興味深かった観察です。

ノイズ版のページをAIに読ませると、ChatGPTもClaudeも約40%遅くなりました。内容の正確さには影響しなくても、処理するデータ量が増えた分だけ時間がかかっている。「体感的に遅い」ではなく、数値として出たのが今回の収穫です。

リアルタイムブラウジング系のAI(ChatGPT-UserやPerplexityBot)がページに即時アクセスして回答を生成するケースを考えると、この「処理速度への影響」は無視できないかもしれません。

③ AIごとにノイズへの耐性が違う

今回最も驚いた発見がこれです。ChatGPTとClaudeは速度は落ちながらも正確に処理したのに、Geminiは同じページを「処理できない」と判断して回答を拒否しました。

AIによって「このページは読める」の基準が違う。複数のAIに対応したいなら、最も厳しい基準に合わせてページを整理する必要がある——そんな視点が生まれた実験でした。

④ ChatGPTはノイズで要約が少し荒くなった

Claudeは元記事・ノイズ版ともにほぼ同等の要約を返しましたが、ChatGPTはノイズ版で要約が少し冗長になりました。全体の情報量が増えた結果、要約の切り取り方が変わったのかもしれません。

ただしこれはサンプルが1回ずつなので、モデルの揺らぎの範囲内である可能性もあります。


サイト設計への示唆

「AIはノイズを無視できる」という結果は一見ポジティブですが、「だからHTMLは雑でいい」にはなりません。今回の実験から言えることは3つです。

  • 処理速度への影響は数値として出る。約40%の遅延は無視できない水準。特に複数ページをAIに参照させるケースでは、この差が積み重なります。
  • AIごとにノイズへの許容度が違う。Geminiのように拒否するAIもいる。すべてのAIに読ませたいなら、最も厳しい基準に合わせる必要があります。
  • クリーンな構造は保険になる。AIが賢くても、セマンティックHTMLや不要コードの除去は「処理コストを下げる」「要約を安定させる」「より多くのAIに読ませる」という意味で有効。

「AIに読まれやすいサイト設計」は、AIが下手だから必要なのではなく、AIに余計な仕事をさせないために必要なのかもしれない。そんな見方が今回の実験でできました。


実験の限界と正直なところ

今回の方法には、はっきりした限界があります。

今回やったのは「AIにURLを渡してページを読ませる」という方法です。これは実際のクローラー(GPTBotやClaude-Web)がサイトを巡回する挙動とは厳密には異なります。実際のクローリングでは、ページの取得方法・処理タイミング・インデックスの仕組みが異なるため、今回の結果がそのまま当てはまるとは言い切れません。

また、各条件1回ずつの計測なので、再現性の検証には不十分です。速度の数値はあくまで参考値です。あくまで「観察の記録」として読んでいただければと思います。


次の実験

Geminiがノイズ版を拒否した件が気になっています。ノイズ要素を少しずつ削っていったとき、Geminiはどこで回答するようになるのか。「どのノイズが原因だったのか」を探る実験を次回やってみようと思います。

引き続き観測を続けます。

実施日:2026年2月19日 / 計測日:2026年2月 / 使用AI:ChatGPT(GPT-4o、ブラウジング機能オン)、Claude(Sonnet 4.6)、Gemini

Free Diagnostic Tool

あなたのサイトは、
AIに見えていますか?

URLを入力するだけで30秒。8項目を自動診断し、優先度別の改善プランを提示します。完全無料・登録不要。