重複コンテンツとは?原因と対策・解決方法

重複コンテンツとは?原因と対策・解決方法

Google のような検索エンジンには、「重複コンテンツ」という問題があります。 重複コンテンツとは、類似したコンテンツが Web 上の複数の場所 (URL) に表示されることを意味し、その結果、検索エンジンは検索結果に表示するURLを認識できません。これは Web ページのランキングに悪影響を与える可能性があり、人々が同じコンテンツの異なるバージョンにリンクし始めると、問題はさらに悪化します。 この記事は、重複コンテンツのさまざまな原因を理解し、それぞれの解決策を見つけるのに役立ちます。

重複コンテンツとは?

重複コンテンツとは、Web 上の複数のURLでコンテンツが重複した状態のことです。複数のURLに同じコンテンツが表示されるため、検索エンジンは、検索結果の上位に表示すべきURLをどれにするか迷います。したがって、両方のURLのランクを下げ、他のWebページを優先する可能性があります。

この記事では、主に重複コンテンツの技術的な原因とその解決策に焦点を当てます。重複コンテンツについてより広い視野を持ち、それがコピーまたはスクレイピングされたコンテンツ、さらにはキーワードのカニバリゼーションとどのように関連するかという点が気になる方のために、また別途記事で説明したいと思います。

重複コンテンツの例

重複したコンテンツは、道路標識が同じ目的地に対して 2 つの異なる方向を指している交差点にいるようなものです。どちらに進むか標識を頼りにした人は困ってしまいますよね? 読者としては、求めていた答えが得られれば気にしないかもしれませんが、検索エンジンは検索結果に表示するページを選択する必要があります。もちろん、同じコンテンツを 2 回表示したくないからです。

「おすすめのレストラン」に関する記事が http://www.example.com/restaurant/ に表示され、同じコンテンツが http://www.example.com/category/restaurant/ にも表示されているとします。この状況は架空のものではなく、多くの最新のコンテンツ管理システム(CMS)で発生しています。次に、あなたの記事が複数のブロガーに取り上げられ、最初のURLにリンクしているブロガーもいれば、2番目のURLにリンクしているブロガーもいるとします。これらのリンクは両方とも異なるURLを宣伝するため、コンテンツの重複が問題になります。それらがすべて同じURLにリンクしている場合、「おすすめのレストラン」でランク付けされる可能性は高くなります。

サイトに重複コンテンツの問題があるかどうかわからない場合は、重複コンテンツ検出ツールが原因を特定するのに役立ちます。

コンテンツの重複を防ぐ理由とは?

重複したコンテンツはランキングに悪影響を及ぼします。 少なくとも、検索エンジンはどのページをユーザーに提案すればよいかわかりません。 その結果、 これらの検索エンジンが重複していると見なすすべてのページを重要でないとみなし、ランクが下がるリスクがあります。重複コンテンツの問題が非常に深刻な場合、たとえば、非常に薄いコンテンツと単語ごとにコピーされたコンテンツを組み合わしたようなページの場合、ユーザーを欺こうとしているとGoogleからみなされると、手動による対策(ペナルティ)に直面する可能性さえあります。 したがって、コンテンツをランク付けしたい場合は、各ページが適切な量の独自のコンテンツを提供していることを確認することが非常に重要です。

ただし、これは検索エンジンだけの問題ではありません。ユーザーが特定のページを検索している場合、探している適切なものが見つからない場合、ユーザーは非常にイライラする可能性があります。 そのため、SEOの多くの側面と同様に、ユーザーエクスペリエンスのために重複コンテンツの問題に対処することが重要です。

重複コンテンツの原因

コンテンツが重複する理由は多数あります。 それらのほとんどは技術的なものです。どちらがオリジナルであるかを明確にせずに、人間が同じコンテンツを 2 つの異なる場所に配置することはめったにありません。投稿を複製して偶然に公開してしまったなどのミスによる重複コンテンツの発生などはあるかもしれませんが、そうでなければ、だれが見ても不自然に感じます。

URL の概念の誤解

開発者がCMSなどのフレームを使ってウェブ構築している場合などによく発生しますが、データベースには記事が1つしかなくても、Webサイトのソフトウェアは、データベース内の同じ記事を複数のURLから取得することができます。 これは、開発者の目には、その記事の一意の識別子はURLではなく、記事がデータベース内に持つIDであるためです。 しかし、検索エンジンにとって、URLはコンテンツの一意の識別子です。

セッションID

多くの場合、ユーザーを追跡して、ユーザーが購入したいアイテムをショッピングカートに保存できるようにしたい場合があります。 そのためには、「セッション」を提供する必要があります。 セッションとは、訪問者がサイトで行ったことの簡単な履歴であり、ショッピングカート内のアイテムなどを含めることができます。 訪問者があるページから別のページにクリックするときにそのセッションを維持するには、そのセッションの一意の識別子 (セッション ID と呼ばれる) をどこかに保存する必要があります。 最も一般的な解決策は、Cookie を使用することです。 ただし、通常、検索エンジンは Cookie を保存しません。

その時点で、一部のシステムはURLでセッションIDを使用するようにフォールバックします。 これは、Webサイト上のすべての内部リンクがそのURLに追加されたセッション ID を取得することを意味します。そのセッションIDはそのセッションに固有であるため、新しいURLが作成され、コンテンツが複製されます。

追跡と並べ替え(ソート)に使用されるURLパラメータ

コンテンツが重複するもう1つの原因は、リンクの追跡など、ページのコンテンツを変更しないURLパラメーターを使用することです。検索エンジンにとって、http://www.example.com/xxx/ と http://www.example.com/xxx/?source=rss は同じURL ではありません。後者は、人々がどのソースから来たかを追跡できるという点では便利かもしれませんが、SEOの点で考えれば上位表示に悪影響を与えます。

もちろん、これは追跡パラメータだけに当てはまるわけではありません。それは、コンテンツの重要な部分を変更しない URL に追加できるすべてのパラメーターに適用されます。そのパラメーターが「製品の並べ替え(価格の安い順、人気順など)を変更する」ためであろうと、「別のサイドバーを表示するため」であろうと、それらのすべてがコンテンツの重複を引き起こします。

スクレイパーとコンテンツシンジケーション

コンテンツが重複する理由のほとんどは、あなたまたはあなたのウェブサイトの「過ち」です。 ただし、場合によっては、他の別のWebサイトが、あなたの同意の有無にかかわらず、あなたのコンテンツを使用または流用することがあります。 それらは常に元の記事であるあなたのコンテンツにリンクしているとは限らないため、検索エンジンはそれを「取得」せず、同じコンテンツであるあなたのコンテンツを取得しそれを重複したコンテンツとみなす場合があります。 サイトの人気が高まるほど、スクレイパーが増え、この問題がますます大きくなります。

パラメータの順序

もう 1 つの一般的な原因は、CMS がクリーンなURLを使用せず、次のような URL を使用することです。 /?id=1&cat=2ここで、ID は記事を指し、cat はカテゴリを指します。またあなたのサイトが序列は別でもこのように /?cat=2&id=1というURLを吐き出すことができて同じ結果が表示される場合、これも検索エンジンはURLは別で内容は同じと判断し重複コンテンツとみなす場合があります。

コメントのページネーション

WordPress だけでなく、他のいくつかのCMSやシステムにも、コメントをページ付けするオプションがあります。 これにより、コメントが多い記事でページネーションが作成され記事のURL全体でコンテンツが複製され、記事自体が重複したものとみなされる場合があります。

WWWと非WWW

依然別記事でも詳しく紹介しましたがwwwとwwwがついていないページは全く別物とGoogleは判断するので、両方にアクセスできる場合、検索エンジンはこれを重複したコンテンツとみなします。またHTTPとHTTPSも重複コンテンツとみなされる可能性があるのでhtaccessなどを使用してURLを統一しましょう。

解決策「URL正規化」

上記に散々上げたように複数のURLが同じコンテンツにつながるというのは問題ですが、解決することができます。
最終的に必ず1つ(URL)にすべきだということを必ず守ってください。必ず対処が必要な問題です。 この問題を解決する方法がURLの正規化というものです。

URLの正規化については「コンテンツは単一の正規化されたURLか(canonical タグ)」をお読みください。

重複コンテンツの問題を特定する

サイトまたはコンテンツに重複コンテンツの問題があるかどうかわからない場合があります。こういう時はGoogleを使用れば、重複したコンテンツを簡単に見つけることができます。

このような場合に非常に役立つGoogle検索コマンド(検索演算子)がいくつかあります。例えば【ドメインとは?】のタイトルを含むサイト上のすべての URL を検索する場合は、次の検索フレーズを Google に入力します。

site:www.tsujigawa.com intitle:"ドメインとは?"

Google は、そのキーワードを含む example.com のすべてのページを表示します。クエリのインタイトル部分を具体的にすればするほど、重複するコンテンツを簡単に除外できます。同じ方法を使用して、Web 全体で重複するコンテンツを特定できます。記事の完全なタイトルが「コンテンツSEOとは?効果とコンテンツの作り方」だったとします。次のように検索します。

site:www.tsujigawa.com intitle:"コンテンツSEOとは?効果とコンテンツの作り方"  

Googleは、そのタイトルに一致するすべてのサイトを表示します。これは完全一致の検索になりますのでこれで記事やページが複数出てきた場合コンテンツが重複していることになります。

重複コンテンツの実用的な解決策

どのURLがコンテンツの正規URLであるかを決定したら、正規化のプロセスを開始する必要があります。これは、検索エンジンにページの正規バージョンについて伝え、できるだけ早く見つけてもらう必要があることを意味します。 この問題を解決するには、次の4つの方法が優先順にあります。

  1. 重複コンテンツを作成しない
  2. 重複コンテンツを正規URLにリダイレクトする
  3. 複製ページへの正規リンク要素の追加
  4. 複製ページから正規ページへのHTMLリンクの追加

重複コンテンツの回避

コンテンツが重複する上記の原因のいくつかには、非常に簡単な修正方法があります。

  • URL にセッション ID がある場合
    これらは、多くの場合、システムの設定で無効にすることができます。
  • 印刷用のページが重複している場合
    印刷用ページは全く持って不要です。印刷スタイル シートを使用してください。
  • WordPress でコメントのページネーションを使用している場合
    設定 » ディスカッション » 他のコメント設定 で無効にする必要があります。またはrel=”next”とrel=”prev”を設定しそれがページネーションページであるということをGoogleに伝えればこの問題を解決することができます。
  • パラメータの順序が異なっていても同じ内容を出力できるようになっている場合
    パラメータを常に同じ順序で配置するスクリプトを作成するようにプログラマーに指示しましょう (これは、多くの場合、URL ファクトリと呼ばれます)。
  • 追跡リンクの問題がある場合
    パラメータベースのトラッキングの代わりに、ハッシュタグベースのトラッキングに変更しましょう。
  • WWW と非 WWW の問題がありますか?
    htaccessなどを使用してURLを統一しましょう。

問題がそれほど簡単に修正されない場合でも、努力する価値があるかもしれません。 目標は、重複したコンテンツが完全に表示されないようにすることです。これがこの問題に対する最良の解決策であるためです。

301 重複コンテンツのリダイレクト

場合によっては使用しているシステム上、上記の解決方法が使えない可能性もあるかと思います。その時はリダイレクトで解決できることもあります。 技術的なことになりますので、そのシステムを構築した開発者とよく話し合って解決方法を模索する必要があります。重複コンテンツの問題を解決した場合 は 、古い重複コンテンツのURLをすべて適切な正規URLにリダイレクトしてください。

canonical link(URLの正規化)の使用

重複を起こしている原因のURLだとわかっていても、削除したくない、または削除できない場合があります。この問題を解決するために、検索エンジンは canonical link 要素を導入しました。サイトの<head>部分に配置され、次のようになります。

<link rel="canonical" href="https://www.tsujigawa.com/" />

正規リンクのhrefセクションに、記事の正しい正規URLを配置します。 canonical をサポートする検索エンジンがこのリンク要素を見つけると、ソフト301リダイレクトを実行し、そのページで収集されたリンク値のほとんどをcanonicalページに転送します。

ただし、このプロセスは 301 リダイレクトよりも少し遅いため、Google の John Mueller が言及しているように、標準の301リダイレクトを行うことができればそちらで対応する方が望ましいでしょう。

元のコンテンツへのリンク

あなたが運用していてもサイトの <head> セクションを管理できない構造の場合もあるかもしれません。上記のいずれも実行できない場合は、記事の上または下に元の記事へのリンクを追加することをお勧めします。元の記事へのリンクが複数ある場合、Google はすぐにそれが実際の正規版であると判断します。

【まとめ】 重複コンテンツは修正可能であり、修正する必要がある

重複コンテンツはどこでも発生します。 実際に存在するページが500ページを超えるサイトで、少なくとも重複コンテンツの問題がまったくないサイトにまだ出会ったことがありません。 これは常に監視する必要があるものですが、修正可能であり、修正した場合サイトが大規模であればあるほどメリットは大きくなる可能性があります。サイトから重複したコンテンツを取り除くだけで、質の高いコンテンツがランキングで急上昇する可能性があります。

重複したコンテンツのよくある質問

重複したコンテンツとは?

重複コンテンツとは 、他のウェブサイトまたは同じウェブサイト上の別のページにあるコンテンツの類似または完全なコピーであるコンテンツのことです。

重複コンテンツはどの程度許容されますか?

技術的には、重複コンテンツの数に制限はありません。 ただし、使用する重複コンテンツの量を最小限に抑えること、または少なくとも SEO や Web サイトのランキングへの影響を軽減することには価値があります。しかし、訪問者に役立つコンテンツなのであれば、あまり気にする必要はありません。 ユーザーにとって良いものであれば、通常は Google も気に入るでしょう。

コンテンツが重複していると Google からペナルティを受けますか?

いいえ。サイトに重複したコンテンツがあることに対する正式なペナルティはありません。したがって、同じ情報が複数のページに掲載されているために強制的に何かが制御されたり、排除されることはありません。

重複したコンテンツは SEO に悪影響を及ぼしますか?

はい。 重複コンテンツと SEO という点で見ると、重複コンテンツがランキングに大きな影響を与えることがわかります。 複数の場所に同じコンテンツの複数のページがある場合、検索エンジンが どれをランク付けするかを 判断するのは困難です。検索エンジンは、どのページが検索結果に最も関連性があるかを判断するのに苦労します。それらがすべて同じだからです。