AIはどうやってあなたのサイトを比べて引用先を決めるのか|DCTAフロー・Compareフェーズ解説
「AIに引用されるサイトと、されないサイト。」
何が違うのか、考えたことがありますか?
「良いコンテンツを書けばいい」「被リンクを増やせばいい」——そういった話は昔からありますが、それはGoogleの話です。AIが情報を選ぶロジックは、Googleとは根本的に異なります。
前回の記事(DCTAフロー・Discoverフェーズ)では、人がどうやってAIにたどり着くかを見てきました。今回はその次のフェーズ——AIがあなたのサイトを「比べて」引用先を決める仕組みを解説します。
結論から言うと、AIの比較ロジックはここ数年で大きく変わっています。そして今もなお、多くのサイト運営者が「古いロジック」を前提に動いています。
1.「AIの情報収集は昔から変わっていない」は間違い
まず前提として知っておきたいのが、AIが情報を集めて比較するやり方は、モデルの世代によってまったく違うということです。
時代ごとに整理してみます。

2018年:図書館の本を丸暗記していた時代(GPT-1)
最初期のAI(GPT-1)は、7000冊以上の本だけを読んで学習していました。インターネットは見ていない。聞かれたことに対して「読んだ記憶から答える」しかできず、外部の情報をリアルタイムで参照するという概念がそもそもありませんでした。
この時代のAIに「引用」という概念はほぼなく、記憶の中にある情報をそのまま出力するだけでした。
2020年:ネット全体を丸暗記した時代(GPT-3)
GPT-3になると、学習データの約60%がウェブ全体のスクレイピングデータ(ウェブ上の大量のページを自動で収集したもの)になりました。膨大なウェブページを読み込んで、それをすべて「記憶」として頭に焼き付けた状態です。
この時代は、よく参照されているサイト=記憶に強く残りやすいという構造がありました。被リンクが多いサイトほどウェブ上に何度も登場し、AIの記憶に刷り込まれやすかった。
つまりこの時代は、GoogleのSEOロジック(被リンク・権威性)とAIの引用ロジックがほぼ一致していました。
2023年〜:暗記+リアルタイム検索の時代(RAG登場)
2023年にChatGPTのブラウジング機能が登場し、AIが回答中にリアルタイムでウェブにアクセスできるようになりました。これが「RAG(検索して答える仕組み)」の普及です。
記憶だけに頼るのではなく、「質問に対して今この瞬間に検索して答える」という動きが始まりました。
2024年〜現在:「意味」で選ぶ時代
現在のAIは、キーワードの一致ではなく「この文章は質問の答えになっているか」という意味的な判断で情報を選んでいます。
さらに重要なのが「情報ゲイン」という考え方です。他のサイトがすでに言っていることを繰り返しているだけのコンテンツは、AIの比較プロセスで除外されます。他のサイトと違うことを言っているかが、選ばれるかどうかの大きな分かれ目になっています。
2.AIによって「比較のやり方」が違う——まず知っておくべき大前提
「AIに最適化する」と一口に言っても、実はAIごとに参照のロジックがまったく異なります。これを理解していないと、対策の方向性がずれてしまいます。
リアルタイムでウェブを見に行くAI
PerplexityやGeminiは、質問を受けるたびにリアルタイムでウェブを検索して情報を集めます。「今この瞬間のウェブ」を参照するので、以下の要素が直接効いてきます。
- コンテンツの鮮度(最近更新されているか)
- クロールを許可しているか(robots.txtの設定)
- ページの構造がきれいか
逆に言うと、今日記事を書いて今日クロールされれば、今日から引用される可能性がある。対策の効果が比較的早く出やすいタイプです。
学習データから答えるAI
ChatGPT(通常モード)やClaudeは、基本的には学習済みのデータから回答します。リアルタイムでウェブを見に行くわけではないので、効いてくる要素が変わります。
- 学習データへの露出量(ウェブ上でどれだけ言及されているか)
- 信頼できるサイトからの被言及数
- 次回の学習データに含まれるかどうか
こちらは対策の効果が出るまでに時間がかかります。「今日対策して今日引用される」という話ではなく、長期的にウェブ上での存在感を積み上げていく作業になります。

同じ「AIに選ばれるための対策」をしていても、どのAIに対して効かせたいかによって、やるべきことの優先順位と時間軸がまったく変わってくる——これらを踏まえて「AIによって比較ロジックが違う」ということの実態です。
そもそもAIはどのページを参照しているのか
もう一つ興味深い傾向があります。AIはトップページよりも、個別のコンテンツページを優先して参照する傾向があります。
ECサイトならItempage(商品詳細ページ)、ブログなら個別記事——つまり「質問の答えが書いてある場所」に直接アクセスしているわけです。
サイト解析ツールを見ていると、トップページの見られている数は変わらないのに特定の記事や商品ページだけアクセスが変動している、という現象を体感している方もいるかもしれません。それはAIが個別ページを直接参照している動きと無関係ではない可能性があります。
参照される優先度を整理すると、現時点の観測ベースでは以下のような順になっています。
- 質問に直接答えている段落があるか
- クロールを許可しているか
- 独自のデータや鮮度があるか
- ページの構造がきれいか
引用されてもクリックされない——でも「記憶」は残る
もう一つ見落とされがちな話があります。AIに引用されても、ユーザーが該当サイトをクリックしないケースが増えています。いわゆるゼロクリック問題です。
サイト解析ツールでみられている数が変わらないのに、どこかから認知されている感覚がある——そういった体感をお持ちの方もいるかもしれません。
AI観測ラボでの観測から推測すると、AIが同じサイトを繰り返し参照している痕跡が見えることがあります。一度引用されたサイトが、次の質問でも候補として残りやすい傾向があるのかもしれません。
引用はクリックを生まないかもしれないけれど、AIの中に「このサイトは信頼できる情報源」という記憶を積み上げている可能性があります。これはブランド認知の新しい形として考えると、無視できない動きです。
3.AIが「比べて選ぶ」3つのステップ
では実際に、AIはどうやって情報を比較して引用先を選んでいるのか。現在の仕組みをできるだけわかりやすく整理します。
ステップ1:大きな網でざっくり集める
「ChatGPTとは?」という質問が来たとき、AIはまずウェブ上から「それっぽい」文章を数十〜数百件、まとめて引っ張ってきます。この段階では精度より量を重視していて、関係あるかもしれないものを広く集める感じです。
ステップ2:意味で比べて順位をつける(リランキング)
集めた候補を「この文章は本当に質問の答えになっているか」という観点で比べ直します。ここで重要なのが、単純なキーワードの一致ではなく「意味的な近さ」で判断されるということ。
また、複数のサイトが同じことを言っているだけなら、そのうちの一つだけが残って他は除外されます。他のサイトと同じことを言っているだけのコンテンツは、この段階で弾かれてしまうわけです。
ステップ3:必要な段落だけ切り取ってAIに渡す
最終的に残った上位3〜5件の文章を、AIに「この情報だけを使って答えを作れ」という形で渡します。
ここで重要なのが、サイト全体が読まれているわけではないという点です。「この段落」「この文章」という単位で切り取られて渡されています。
つまり引用されるかどうかは、ページ全体の評価ではなく段落単位の勝負になっているということです。
4.観測:AIは「段落単位」で引用する傾向がある
これは推論の域を出ないのですが、実際にAIに質問をしていると興味深い現象を目にすることがあります。
あるサイトについてAIに聞いたとき、そのサイトのトップページや記事全体ではなく、特定の段落の内容だけが引用された——そういった体験をした方は少なくないと思います。AI観測ラボを使って観測していても、似たような傾向が見えることがあります。
前述のステップ3で整理したように、AIは文章を段落単位で切り取って処理しています。だとすれば「特定の段落だけ引用される」という現象は、その仕組みの自然な結果と考えることができます。
もちろんこれはあくまで観測からの推測です。ただ、「サイト全体を評価されている」という前提でコンテンツを作るのと、「段落単位で評価されている」という前提で作るのとでは、設計の方向性がかなり変わってきます。
5.【仮説】セマンティックHTMLの本当の役割
ここからは、AI観測ラボとしての仮説を一つ提示します。
セマンティックHTMLについて、よく言われるのは「AIがサイトを読みやすくするため」という説明です。h1・h2・h3を適切に使い、構造を整えることでAIに理解されやすくなる、という話です。
これは正しいと思います。ただ、もう一歩踏み込むと、別の見方もできます。
セマンティックHTMLは「AIに読みやすくするため」ではなく、「独自コンテンツを正確に段落単位で切り出してもらうための器」ではないか。
流れを整理するとこうなります。
| ステップ | 何が起きているか |
|---|---|
| h2・h3でセクションを区切る | AIが「ここからここまでが1つの話題」と認識しやすくなる |
| 意味のある単位でチャンクが切り出される | 独自データや独自の視点が「薄まらず」に渡される |
| リランキングで比較される | 独自性のある段落が上位に残りやすくなる |
| 引用される | 独自コンテンツが正確に届く |
逆に言うと、どれだけ独自のデータを持っていても、HTMLの構造がぐちゃぐちゃだと段落の境目がわからず、AIに渡されるチャンク=「情報のかたまり」が中途半端に切り出されてしまう可能性があります。結果として独自性が「薄まった状態」でAIに渡されてしまう——そういうリスクがあると考えています。
これはあくまで推論であり、AI観測ラボとして「そういう傾向があるのではないか」という仮説の提示です。ただ、コンテンツの独自性を担保するためにHTML構造を整えるという考え方は、実践として無理のない方向性だと思っています。
6.まとめ:Compareフェーズで生き残るために
Compareフェーズを通じて見えてきたことを3点にまとめます。
1. 引用はページ単位ではなく段落単位の勝負
サイト全体の評価よりも、「この段落が質問の答えになっているか」が問われています。個別記事・個別ページの段落レベルでコンテンツを設計することが重要になってきます。
2. AIによって対策の方向と時間軸が違う
リアルタイム系(Perplexity・Gemini)には鮮度と構造が効く。学習データ系(ChatGPT・Claude)にはウェブ上での被言及の積み上げが効く。どのAIを対象にするかで戦略が変わります。
3. 引用はブランドの「記憶」を作る
クリックされなくても、引用されることでAIの中に「このサイトは信頼できる」という記憶が積み上がっていく可能性があります。ゼロクリックを悲観するより、引用数を一つの指標として見る視点も持っておくといいかもしれません。
次のTフェーズでは「AIはどうやって信頼できる情報源を判断するのか」を見ていきます。Compareで比較されたあと、Trust(信頼)の段階でさらに絞られていく仕組みです。
この記事はAI観測ラボによる観測データと公開情報をもとに構成しています。AIの引用ロジックは各プラットフォームの仕様変更により変わる可能性があります。
関連記事
あなたのサイトは、
AIに見えていますか?
URLを入力するだけで30秒。8項目を自動診断し、優先度別の改善プランを提示します。完全無料・登録不要。