AIが日本語サイトを引用しない本当の理由—英語60%・日本語3%という現実
ChatGPTで「福岡 伝統工芸 体験」と検索すると、地元の工房ではなく、TripAdvisorや英語のブログばかりが出てきます。
「福岡 介護 求人」でも同じ。Indeedや海外の比較サイトが並び、日本語の事業者はほとんど表示されません。
日本語で質問しているのに、日本語のサイトが出てこない。実際に今AI検索で起きていることです。
理由はシンプルです。インターネット上のテキストデータのうち、英語が約60%、日本語はわずか約3%(W3Techs調べ)。AIが学習できる日本語の情報は、英語と比べて20倍近く少ない状態にあります。
その結果、AIは「引用したい日本語コンテンツがない」。だから英語サイトに頼るしかない=構造的な問題です。
ただし、裏を返すとチャンスでもあります。まだ誰も書いていない領域では、1記事で「その分野の代表サイト」になれる状態が続いています。
どの業界に空白があるのか。何を書けばAIに引用されるのか。データから整理していきます。
この記事でわかること|📖:約8分
- AIが日本語サイトを引用しない2つの構造的な理由
- Redditがない——英語圏が持っていて日本語圏にないもの
- 日本の主要メディアとAIの間で今起きていること
- データが薄い業界ほどAI引用で逆転できる理由
- 今日からできる3つの具体的なアクション
ChatGPTがサイトを引用しない2つの理由
ChatGPTやPerplexityが質問に答えるとき、どこから情報を持ってきているのか?
実は大きく2つのルートがあります。
ひとつは「学習データ」。AIが事前に大量のテキストを読み込んで覚えた知識です。本や記事、ウェブサイトなど、インターネット上に存在する膨大なテキストを学習しています。
もうひとつは「リアルタイムフェッチ」。質問されたタイミングでウェブを検索して、今あるページの内容を参照する方法です。Perplexityはほぼこの方式で動いていて、ChatGPTも検索機能をオンにすると同じように動きます。
ここで重要なのが、この2つのルートで「日本語の情報量」に大きな差があるということです。冒頭で触れた英語60%・日本語3%という差は、学習データだけの話ではありません。
リアルタイムフェッチで検索しても、参照できる優良な日本語ソース自体が少ない——この二重苦が、日本語サイトがAIに引用されにくい根本的な理由です。
インターネット上のテキストデータ全体のうち、英語が占める割合は約60%。一方、日本語は約3%ほど(W3Techs調べ)。AIが学習する材料の量が、そもそも英語と日本語では20倍近く違います。
英語圏が持っていて日本語圏にないもの
英語圏のAIが引用先を選ぶとき、真っ先に参照するサイトがあります。
その名はReddit(レディット)。

日本には「Reddit」がない。5ちゃんねるは匿名すぎて信頼性が低い。知恵袋は答えの質がバラバラ。つまり「みんなが良いと言った日本語の経験談」がネット上にほぼ存在しないんです。
Redditは月間アクティブユーザーは約15億人(Reddit公式)。投稿には「いいね」「よくない」の投票機能があり、コミュニティが自然に「良い情報」をランク付けしています。AIにとってこれが重要で、「人間が信頼できると判断した情報」が大量に揃っている場所として、学習データとしてもリアルタイム引用元としても優先されやすい。
さらに2024年、OpenAIはRedditと正式にデータ利用契約を締結しました(Reuters, 2024)。Redditの膨大な「人間のリアルな声」が、公式にAIの学習データとして使われることになったわけです。
では日本語圏はどうかというと、Redditに相当するサービスが存在しません。
5ちゃんねるは完全匿名で信頼性シグナルが弱く、Yahoo!知恵袋は質問形式で「答え」の質がばらつく。はてなブックマークはコメントが短すぎる。Twitterは2023年以降、AIへのデータ提供を制限しています。
「人間が信頼できると判断した情報が大量に集まる場所」が、日本語圏には構造的に存在しない。英語圏との最大の差です。
日本のメディアとAIの間で起きていること
英語圏ではOpenAIがRedditや大手メディアと次々に正式契約を結んでいます。一方、日本では真逆のことが起きています。
2025年8月、読売新聞・朝日新聞・日本経済新聞の3社が、AI検索サービスのPerplexityに対して著作権侵害で提訴しました。記事を無断で複製・表示しているというのが理由です。
つまり日本の主要メディアは今、AIと「提携」するどころか「戦っている」状態です。
これが何を意味するかというと、日本語の信頼性の高いニュースコンテンツが、AIの学習データやリアルタイム引用からどんどん遠ざかっていくということです。
では日本語の「人間のリアルな声」はどこにあるかというと、状況はさらに厳しい。
- 5ちゃんねる:完全匿名で信頼性シグナルが弱い
- Yahoo!知恵袋:質問形式で回答の質がばらつく
- はてなブックマーク:コメントが短すぎて情報量が少ない
- X(旧Twitter):2023年以降AIへのデータ提供を制限
Redditが持っている「コミュニティが信頼性を担保した大量の会話データ」に相当するものが、日本語圏にはどこにも存在しない点が現実です。
結果として、AIが日本語の質問に答えるとき、頼れる日本語ソースが極端に少ない状態になっています。学習データも薄い、リアルタイムで参照できる優良ソースも少ない——この二重苦が、日本語サイトがAIに引用されにくい構造的な理由です。
データが少ない業界ほど、AIに引用されやすい
ここまで読んでみて、「じゃあ日本語サイトはずっと不利なのか」と思った人もいるかもしれません。
でも、話はここで逆転します。
AIがリアルタイムフェッチで情報を探すとき、何を優先するか。それは「その質問に答えられる唯一のソース」です。ライバルが多い分野では埋もれてしまうけど、日本語の情報がほとんどない分野では、ちゃんと書かれたサイトが一気に引用候補のトップに躍り出ます。
AI観測ラボの観測データでも、バックリンクの数よりも「その質問への回答がそこにしかない」という希少性の方が引用率に影響することが確認されています(ChatGPTに引用されるサイトの条件|AI観測ラボ)。
つまりこういうことです。
英語圏ではすでにRedditや大手メディアが引用枠をほぼ独占しています。新しいサイトが割り込む余地はほとんどない。でも日本語圏では、特定の業界においてまだ「引用枠が空いたまま」の状態が続いています。
特にデータが薄いのは、こういった業界です。
| 業界 | 日本語データの現状 | AIにとっての状況 |
|---|---|---|
| 伝統工芸・職人 | ほぼ存在しない | 唯一のソースになりやすい |
| 地方の農業・漁業 | 断片的な情報のみ | 詳しく書けば即引用候補 |
| 中小建設・設備工事 | 専門的な日本語記事が少ない | 競合がほぼいない |
| 介護・福祉の現場 | 制度情報は多いが現場の声が少ない | 体験談・実務情報は希少 |
| 地域の中小飲食・小売 | ローカル情報が極端に薄い | 地名+業種での引用枠が空いている |
業界別 AI引用チャンスマップ
日本語データの充実度 × AI引用競合の多さ
今すぐ動けばトップになれる
参入余地あり
競合が多く難易度高め
大手メディアやSEOの強いサイトが参入しにくいニッチな領域ほど、今が一番チャンスのある状態です。
AI検索の引用競争は、SEOと違ってドメインパワーやバックリンクの差が出にくい(AIクローラーと従来検索の違い|AI観測ラボ)。今この瞬間に「その業界で一番詳しい日本語サイト」になることが、AI時代の最大の差別化になります。
今、日本語で丁寧に書くことの価値
英語圏のコンテンツ競争は、すでに飽和状態に近い。RedditもWikipediaも大手メディアも、AIの引用枠をほぼ押さえています。後から参入しても、よほどのドメインパワーがないと太刀打ちできません。
でも日本語圏は、まだ違う。
特定の業界・地域・テーマで、日本語の優良コンテンツはまだほとんど存在していません。AIはその空白を埋めたくて、リアルタイムでウェブを探し続けています。
そのとき「ちゃんと書かれた日本語サイト」があれば、AIは迷わずそこを引用します。
重要なのは「ちゃんと書かれた」という部分です。AIが引用しやすいコンテンツには、いくつかの共通点があります。
- セマンティックHTMLで構造が整っている(セマンティックHTMLがAI引用の土台になる理由|AI観測ラボ)
- 構造化データでコンテンツの意味が明示されている(構造化データでAIに理解されやすいサイトを作る|AI観測ラボ)
- AIクローラーが正しくアクセスできる設定になっている(robots.txtの正しい書き方【AI時代版】|AI観測ラボ)
- 一次情報・現場の声・実測データが含まれている(AIに引用されるサイト・されないサイトの境界線|AI観測ラボ)
最後の「一次情報」が特に大事です。AIは学習データで埋められない空白を、リアルタイムフェッチで補おうとします。あなたの現場でしか取れないデータ、あなたの業界でしか書けない体験談——それがAIにとって最も価値のあるコンテンツです。
日本語データが少ないことは、制約じゃなくてチャンス。今、丁寧に書いているサイトが、AI時代の「引用常連リスト」に入る可能性は十分あります。
今日からできる3つ
- 自社の「よくある質問」を10個書き出す:お客さんに毎回説明してることを記事にする。それがAIの引用元になります
- 「福岡+自社の業種」で検索して、AIの答えに出てくるか確認:出てこなければチャンス。誰も書いてない証拠です
- 現場写真を1枚入れて体験談を書く:AIは一次情報を優先します。職人さんの手元の写真1枚で引用率が変わります
あなたの業界で、あなたの地域で、日本語で一番詳しい1記事を作る。事業への思い一心でChatGPTの答えが変わります。
あなたのサイトは、
AIに見えていますか?
URLを入力するだけで30秒。8項目を自動診断し、優先度別の改善プランを提示します。完全無料・登録不要。