什么是重复内容? 原因及对策/解决方案
像谷歌这样的搜索引擎存在“重复内容”的问题。重复内容意味着相似的内容出现在网络上的多个位置(URL)中,因此搜索引擎不知道在其搜索结果中显示哪个URL。这可能会对网页的排名产生负面影响,当人们开始链接到同一内容的不同版本时,问题会变得更糟。本文将帮助您了解重复内容的各种原因并找到每种原因的解决方案。
Table of Contents
Toggle什么是重复内容?
重复内容是指网络上多个 URL 上的内容重复。由于多个 URL 显示相同的内容,搜索引擎不知道哪个 URL 在搜索结果中应该排名更高。因此,它可能会降低这两个 URL 的排名,而有利于其他网页。
本文主要讨论重复内容的技术原因及其解决方案。对于那些对重复内容及其与复制或抄袭内容甚至关键字蚕食有何关系有更广泛了解的人,我想在另一篇文章中讨论它。
重复内容的示例
重复的内容就像在十字路口,路标指向同一目的地的两个不同方向。那些依靠路标来决定走哪条路的人会遇到麻烦,对吗?作为读者,您可能不在乎是否得到了您正在寻找的答案,但搜索引擎必须选择在搜索结果中显示哪些页面。因为,我们当然不想将相同的内容显示两次。
假设一篇关于“餐厅推荐”的文章出现在 http://www.example.com/restaurant/ 上,并且相同的内容出现在 http://www.example.com/category/restaurant/ 上。这种情况并非虚构,并且发生在许多现代内容管理系统(CMS)中。现在假设您的文章被多个博主选中,其中一些链接到第一个 URL,另一些链接到第二个 URL。这两个链接都宣传不同的 URL,因此内容重复成为一个问题。如果它们都链接到相同的 URL,则它们更有可能排名“推荐餐厅”。
如果您不确定您的网站是否存在重复内容问题,我们的重复内容检测器工具可以帮助您确定原因。
为什么要避免重复内容?
重复的内容会对您的排名产生负面影响。至少搜索引擎不知道向用户推荐哪些页面。因此,您面临取消导入这些搜索引擎认为多余的任何页面并降低您的排名的风险。如果重复内容的问题非常严重,例如,页面将非常薄弱的内容与逐字复制的内容结合在一起,如果谷歌认为您试图欺骗用户,您甚至可能面临手动操作(惩罚)。因此,如果您希望内容排名,确保每个页面提供适量的独特内容非常重要。
然而,这不仅仅是搜索引擎的问题。如果用户正在搜索特定页面,如果找不到他们想要的正确内容,他们可能会感到非常沮丧。因此,与 SEO 的许多方面一样,解决重复内容的问题对于用户体验非常重要。
重复内容的原因
重复内容的原因有很多。其中大部分是技术性的。人们很少将相同的内容放在两个不同的地方,而不明确哪一个是原创的。重复的内容可能会由于重复帖子和意外发布等错误而出现,但否则对任何人来说都会显得不自然。
对URL概念的误解
这种情况经常发生在开发人员使用CMS或其他框架构建网站时,即使数据库中只有一篇文章,网站软件也可以从多个URL检索数据库中的同一篇文章。这是因为,在开发人员眼中,该文章的唯一标识符不是 URL,而是该文章在数据库中的 ID。但对于搜索引擎来说,URL 是内容的唯一标识符。
会话ID
在许多情况下,您可能希望跟踪用户并允许他们将想要购买的商品保存在购物车中。为此,您需要提供一个“会话”。会话是访问者在您网站上所做操作的简要历史记录,可以包括购物车中的商品等内容。为了在访问者从一个页面单击到另一页面时维持该会话,您需要在某处存储该会话的唯一标识符(称为会话 ID)。最常见的解决方案是使用cookie。不过,搜索引擎一般不存储cookie。
此时,某些系统会转而使用 URL 中的会话 ID。这意味着您网站上的每个内部链接都会在其 URL 中附加一个会话 ID。该会话 ID 对于该会话来说是唯一的,因此会创建一个新的 URL 并复制内容。
用于跟踪和排序的 URL 参数
重复内容的另一个原因是使用不更改页面内容的 URL 参数,例如链接跟踪。对于搜索引擎来说,http://www.example.com/xxx/ 和 http://www.example.com/xxx/?source=rss 不是同一个 URL。后者很有用,因为您可以跟踪人们的来源,但从 SEO 的角度来看,它会损害您的排名。
当然,这不仅仅适用于跟踪参数。它适用于可添加到 URL 且不会更改内容任何重要部分的任何参数。无论该参数是“更改产品的排序(价格最低的在前,最受欢迎的等)”还是“显示不同的侧边栏”,都会导致内容重复增加。
抓取工具和内容联合组织
重复的内容很可能是您或您的网站的“错误”。然而,在某些情况下,其他网站可能会在未经您同意的情况下使用或转移您的内容。因为它们并不总是链接到您的内容(即原始文章),所以搜索引擎可能不会“获取”它,而是获取您的内容(即相同的内容),并将其视为重复内容。网站越受欢迎,抓取者就越多,这个问题就越严重。
参数顺序
另一个常见原因是 CMS 不使用干净的 URL,而是使用如下 URL:/?id=1&cat=2
其中 ID 指的是文章,cat 指的是类别。/?cat=2&id=1
另外,如果你的网站即使顺序不同也能吐出这样的URL,并且显示相同的结果,搜索引擎可能会认为这是重复内容,因为URL不同但内容相同。
评论分页
不仅是 WordPress,其他几个 CMS 和系统也有对评论进行分页的选项。这可能会在包含大量评论的文章上创建分页、跨文章 URL 重复内容,并且文章本身可能被视为重复项。
WWW 和非 WWW
正如我在另一篇文章中详细解释的那样,Google判断www和没有www的页面是完全不同的东西,所以如果你可以访问两者,搜索引擎就会认为这是重复内容。另外,HTTP 和 HTTPS 可能会被视为重复内容,因此请使用 htaccess 来统一 URL。
解决方案“URL规范化”
正如我上面提到的,有多个 URL 指向相同的内容是一个问题,但它是可以解决的。
永远记住,您最终应该只有一个(URL)。这绝对是一个需要解决的问题。解决这个问题的方法是URL 规范化。
有关 URL 规范化的信息,请阅读“内容是单个规范 URL(规范标签)吗? ”
识别重复内容问题
有时您可能不知道您的网站或内容是否存在重复内容问题。Google 可以帮助您轻松找到重复的内容。
有一些 Google 搜索命令(搜索运算符)在这种情况下非常有用。例如,[什么是域?如果您想搜索网站上包含标题]的所有网址,请在 Google 中输入以下搜索短语:
site:www.tsujigawa.com intitle:"ドメインとは?"
Google 将显示 example.com 上包含该关键字的所有页面。查询的标题部分越具体,就越容易过滤掉重复的内容。相同的方法可用于识别网络上的重复内容。假设文章的完整标题是“什么是内容 SEO?它如何运作以及如何创建内容”。搜索:
site:www.tsujigawa.com intitle:"コンテンツSEOとは?効果とコンテンツの作り方"
Google 将显示与该标题匹配的所有网站。这将是完全匹配搜索,因此如果同时出现多篇文章或页面,内容将会重复。
重复内容的实用解决方案
一旦您确定了哪些 URL 对于您的内容来说是规范的,您就需要开始规范化过程。这意味着您需要告诉搜索引擎您页面的规范版本,以便他们能够尽快找到它。有四种方法可以解决此问题,按优先顺序排列:
- 不要创建重复的内容
- 将重复内容重定向到规范 URL
- 将规范链接元素添加到重复页面
- 将重复页面的 HTML 链接添加到规范页面
避免重复内容
上述一些重复内容的原因有非常简单的修复方法。
- 如果您的 URL 中有会话 ID
,则通常可以在系统设置中禁用它们。 - 如果打印机页重复,
则根本不需要打印机页。使用打印样式表。 - 如果您在 WordPress 中使用评论分页,
则需要在设置 » 讨论 » 其他评论设置中禁用它。或者你可以通过设置 rel=”next” 和 rel=”prev” 告诉 Google 这是一个分页页面来解决这个问题。 - 指导程序员编写始终
按相同顺序放置参数的脚本(这通常称为 URL 工厂)。 - 如果您在跟踪链接时遇到问题
,请切换到基于主题标签的跟踪,而不是基于参数的跟踪。 - 您有 WWW 和非 WWW 问题吗?
使用 htaccess 之类的东西来统一您的 URL。
即使问题没有那么容易解决,也可能值得付出努力。目标是完全隐藏重复的内容。因为这是解决这个问题的最佳方案。
301 重复内容重定向
根据您使用的系统,我认为上述解决方案可能无法使用。有时重定向可以解决问题。由于这是一个技术问题,因此需要与构建系统的开发人员充分讨论并寻求解决方案。如果您已解决重复内容问题,请务必将所有旧的重复内容 URL 重定向到正确的规范 URL。
使用规范链接
有时您知道是 URL 导致了重复项,但您不希望或无法删除它。为了解决这个问题,搜索引擎引入了规范链接元素。它位于网站的 <head> 部分,如下所示:
<link rel="canonical" href="https://www.tsujigawa.com/" />
将文章的正确规范 URL 放入规范链接的 href 部分。当支持规范的搜索引擎找到此链接元素时,它会执行软 301 重定向,将在该页面上收集的大部分链接值转发到规范页面。
然而,这个过程比 301 重定向要慢一些,因此正如 Google 的 John Mueller 提到的,如果可能的话,标准 301 重定向会更好。
链接到原始内容
您的结构可能无法控制站点的 <head> 部分。如果以上均无法完成,我们建议在文章上方或下方添加指向原始文章的链接。如果原始文章有多个链接,谷歌将很快确定它是实际的规范版本。
摘要:重复的内容可以而且应该被修复
重复的内容随处可见。我还没有遇到过一个实际存在的页面超过 500 个且至少不存在任何重复内容问题的网站。这是应该始终监控的事情,但它是可以修复的,并且站点越大,它能带来的好处就越多。只需从网站中删除重复的内容,优质内容的排名就会飙升。
重复内容常见问题解答
什么是重复内容?
重复内容是指与另一个网站或同一网站上的另一个页面上的内容类似或完全相同的副本。
多少重复内容是可以接受的?
从技术上讲,重复内容的数量没有限制。然而,最大限度地减少您使用的重复内容的数量,或者至少减少对 SEO 和网站排名的影响是有价值的。但如果您的内容对访问者有用,您就不必太担心。如果它对用户有利,谷歌通常也会喜欢它。
Google 会因重复内容而惩罚我吗?
不。网站上出现重复内容不会受到正式处罚。因此,通过在多个页面上发布相同的信息不会强制控制或消除任何内容。
重复的内容对 SEO 有害吗?
是的。从重复内容和SEO来看,我们可以看到重复内容对排名的影响是巨大的。当您在多个位置拥有相同内容的多个页面时,搜索引擎很难知道对哪一个进行排名。搜索引擎很难确定哪些页面在其搜索结果中最相关。因为它们都是一样的。