如何移除或者拒绝搜索引擎索引URL

如何移除或者拒绝搜索引擎索引URL

有时候有些网站URL地址,我们并不需要被搜索引擎收录索引。若发生了意外的情况,我们应该如何处理?大部分搜索引擎都提供移除网址的服务,本文将以谷歌为例,详细说明各种情况!

有很多方法可以从谷歌中移除网址。但是没有一种方法是可以适合所有情况。使用哪个方法需要你去做判断。

重要的是,使用错误的方法不仅会导致页面无法按预期从谷歌索引中删除,而且还会对SEO产生负面影响。

为了快速确定哪种移除方法最适合你,全文实行分章节,你可以更具自己的情况跳到本文的相关部分。

how-to-remove-urls-from-google-search-1

本文中你可以学到:

如何检查网址是否被索引

我通常看到SEO人员检查页面是否被编入索引的做法是使用 site: 方法在谷歌中搜索(例如 site:url地址)。虽然 site: 搜索对于识别如果显示在搜索结果中可能有问题的网站页面时很有用。但是你需要注意,结果并不是绝对的。事实上它上不会告诉你页面是否是索引。它们可能显示的是谷歌已知的页面,但这并不意味着它们有资格在没有site:指令的情况下依然显示在常规搜索结果中。

举个例子,site: 搜索后的结果依然包括跳转页面以及制作过Canonical标签的页面。同时,当你site搜索一个域名时,谷歌可能会显示的是另外一个域名的标题以及描述的结果。比如我们可以看下 moz.com这个站点(原来是seomoz.com)搜索任何指向 moz.com 的关键词时,展示的SERP结果都是 moz.com,但是当我们 site:seomoz.com 的时候,结果却像下方这样:

seomoz-site-search-serp-1

这个之所以重要是因为,很多SEO会在这里误判,在谷歌当中移除原来的老域名链接。这会导致 PageRank(页面权重) 无法正常传递。我看过很多的案例,很多人误以为是因为操作失误导致 site:旧域名的时候依然有结果,所以开始“修复”这些问题。实际这些操作却在伤害网站。

检查网页是否索引的方法是查看 Google Search Console 中的覆盖率报告,或者是使用网址检查功能检测单一的页面。这些工具会告诉你页面是否被索引,同时还会提供额外的信息说明谷歌是如何处理这些页面的。如何你没有这个工具的话,那么也可以直接在谷歌当中搜索你页面的URL。

url-inspection-tool-1

在Ahrefs中,你可以在 “Top pages(热门页面)”报告中找到参与排名的页面。通常我们看到的都是参与自然关键词排名的页面结果,这就意味着这些页面很可能是索引的。这里需要注意的是,你需要查看最后我们发现这个页面的日期,在我们发现这个页面的时候它是索引状态,但是索引状态会跟随时间而变化。

keyword-update-top-pages-1

如果某一个特定的URL有问题,需要从索引中移除。你可以通过查看本文最开始流程图,找到最好的解决方法,并且查看下方对应的方法进行处理。

5种从谷歌移除网址的方法

方法1: 删除内容

如果你删除了内容,并且服务器返回404(未找到)或410(丢失)的状态码,那么在谷歌再次抓取这个页面之后就会从索引中移除这些页面。在移除之前,页面依然可能会在搜索结果中展现出来。即使页面已经被删除,有可能缓存的页面依然会被临时的展示给用户。

你也许会想要其它的方法:

  • 我需要尽快移除网址. 查看URL移除工具。
  • 我希望保留链接权重. 查看设置规范页面方法。
  • 我需要页面对用户可见. 查看noindex方法或者限制访问方法是否能满足你的需求。

方法2: Noindex

使用 noindex meta robots 标签、或者是使用 x‑robots 头部请求可以告诉搜索引擎在索引中移除本页面。 meta robots标签适用于页面,x‑robots适用于页面以及其它格式的资源(比如:pdf)。因为这些标签需要被搜索引擎发现——所以不要用robots.txt进行屏蔽。同时需要注意,将这些页面移除索引可能会导致链接无法传递权重。

Noindex meta robots 标签示例:

<meta name="robots" content="noindex">

X‑robots noindex 头部求情示例:

HTTP/1.1 200 OK 
X-Robots-Tag: noindex

你也许会需要其它的一些解决方法:

  • 我不希望用户访问这个页面. 查看访问限制方法。
  • 我需要保留链接权重. 查看设置规范页面方法。

方法3: 访问限制

如果你希望页面只能被特定用户访问,而不被搜索引擎发现,那么你可以使用下面三种方式中的一种:

  1. 设置特殊的登录访问系统;
  2. HTTP认证 (需要密码才可以访问);
  3. IP 白名单 (只允许特定IP访问页面)

这种设置方法非常适合内网环境、会员限定内容、暂存内容、测试站点、或者是正在开发中的站点。它只会允许除搜索引擎以外的特定用户访问,这样搜索引擎就不会索引这些页面。

你可能需要其它的方法:

  • 我需要尽快移除网址. 查看URL移除工具。在特殊情况中,你需要隐藏的内容可能已经被缓存了,这时你需要尽快移除网址,防止用户看到内容。

方法4: URL移除工具

这个工具的名称可能会让你误解它的工作原理。这个工具只会临时的隐藏特定内容。谷歌依然会发现并抓取内哦让那个,但是页面不会展示给用户。在谷歌中会持续6个月的时间,而在Bing中也有相同的功能,但是时间只会持续3个月。这个工具建议在极为特殊的情况下使用。比如安全问题、信息泄露、个人身份信息(PII)等等。针对谷歌你可以使用移除工具,对于Bing可以看如何屏蔽URL

如果你希望在更长时间内的移除这个内容,那么除了使用移除工具之外你还要配合使用其它的方法(noindex或者删除内容)。又或者是阻止拥有链接的用户继续访问内容(删除或访问限制)。这只是给你一个快速隐藏内容的方法,但是从索引中移除依然需要时间。这个过程可能最快也需要一天的时间。

方法5: 设置规范页面

当你的页面有很多个版本,而你需要将链接权重聚集到一个特定的页面上时,你需要做的就是设置规范页面。这个主要是用来防止重复内容的,同时它可以将多个版本页面的权重聚集到一个特定的索引页面上。

你有多个方法可以设置规范页面

  • 设置Canonical权威标签. 这个可以将一个你需要展示给用户的页面设置为另外一个页面的权威页面。如果页面是重复或者内容十分相近,那么这种方法是可行的。如果内容差异很大,那么Caononical标记可能会被忽略,因为这个标记只有提示作用,而并非命令。
  • 跳转. 跳转可以让访客或者搜索引擎蜘蛛从一个页面跳转到另外一个页面。301跳转在SEO当中用的是非常多的。它可以告诉搜索引擎最终的网址是什么,同时可以将原页面的权重整合到最终页面上。302临时跳转则告诉搜索引擎需要保留原网址的索引同时依然保留权重。
  • 处理URL参数. URL参数一般在网址最后显示,通常会包含一个“问号”(比如:ahrefs.com?this=parameter)。这个工具可以让你告诉谷歌应该如何处理不同参数的页面。举个例子,你可以告诉谷歌内容会随参数变化而变化、或者告诉谷歌参数只是用来做统计用的。

如何确认移除的优先级

如果你有多个页面要从谷歌索引中移除,那么应优考虑它们的优先级。

高优先级:这些页面通常与安全或与机密数据相关。这包括个人数据(PII)、客户数据或特有信息。

中优先级:通常涉及针对特定用户组的内容。比如公司内网、员工限定、会员限定、暂存、测试、或正在开发的站点。

低优先级:这些页面通常涉及重复内容。比如同一个页面拥有多个URL、带参数的URL、缓存页、测试页、或者是依然在开发中的页面。

需要避免的常见的移除问题

我想介绍几种我经常会看的到移除问题,以及每种问题会导致什么后果。以帮助大家了解为何移除不起作用。

在 robots.txt 中设置 Noindex

谷歌之前曾经支持过在 robots.txt 中设置Noindex。但是这并非官方的做法,同时现在也正式的取消支持这样的设置方法。许多之前这么设置的网站可能会伤害到自己。

在 robots.txt 设置了不抓取

抓取和索引是两个事情。即使设置不抓取该页面,谷歌依然可以通过外链或内链索引这个页面。即使谷歌没有抓取到页面内容,它依然会通过其它的一些信号(比如指向该页面的锚文本)来生成标题并展示在搜索结果中。

设置 Nofollow

通常人们会把这个和 noindex 混淆,因为经常有人在页面上使用 nofollow 并希望谷歌不索引这个页面。之前 Nofollow 是设置在页面上的链接中,用来阻止谷歌抓取被指向页面中的内容。但是现在情况变了。谷歌现在依然可以抓取这些页面。之前 Nofollow 还被用于限制页面与页面之间的权重传递。同样,现在也不行了。在过去,如果页面有其它的链接入口谷歌依然可以通过其它的入口发现该页面。

小提示. 您可以通过安装Smart SEO Tool插件设置所有外部链接为nofollow,以防止页面权重向其他网站URL地址传递。

你可以在Ahrefs Site Audit(网站诊断)中的Page Explorer(页面分析)中使用筛选功能,查看被Nofollow的页面:

nofollow-site-audit-2

一般我们不会给页面所有的链接都设置nofollow,所以这里应该检索不到结果,或者是只检索出很少的结果。如果有,我建议你检查这些结果,看看这些页面是否是需要设置为 Noindex、或者选择一个合适的方式处理、又或者是直接删除页面。

你还可以在Link Explorer(链接分析)中查看是否又单独被设置为 Nofollow 的链接:

nofollow-internal-links-1

将设置了Noindex的页面Canonical到了另外一个URL

这两个设置是有冲突的。Noindex代表从索引中移除页面,而Canonical则告诉谷歌另外一个页面是原页面的权威页面。这个可能只有在谷歌忽视 Noindex 标记并把 Canonical 作为主要信号,权重传递才会生效。 但是这种情况不是绝对会发生的。这其中是一套算法,可能Noindex会被当成是一种信号,那么页面就无法进行权重整合。

你可以在Site Audit(网站诊断)中的 Page Explorer(页面分析)功能中找到那些 Noindex 并且Canonical标签指向不是自己的页面结果:

noindex-non-self-canonical-site-audit-1

设置Noindex之后等待谷歌抓取,然后设置了抓取屏蔽

通常这会发生在下面两种情况:

  1. 页面设置了屏蔽抓取但是已经被索引,于是设置了Noindex,同时打开了抓取,让谷歌抓取并看到Noindex设置后,再次屏蔽抓取。
  2. 针对需要移除的页面设置了Noindex标签,并且在谷歌抓取并处理后,屏蔽了抓取。

不管是哪一种情况,最终都是屏蔽了抓取。但是如果你还记,刚才我们就说过抓取不等于索引。即使这些页面被屏蔽了,但是依然会被索引。

如何移除非自己网站的内容

如果是你的内容,被用在了另外一个网站上,你可以根据Digital Millennium Copyright Act (DMCA)版权法提出索赔。你可以使用谷歌版权申诉工具进行版权申诉,从而要求删除任何受版权保护的内容。

如果你是在欧盟,你可以根据法院的被遗忘权,要求删除包含有关你的信息的内容。你可以使用 “欧盟隐私删除表格” 申请要求删除个人信息。

移除图片

如果你想从谷歌中移除图片,最简单的方法是使用 Robots.txt。正如我们之前提到的,在robots.txt当中进行屏蔽并不是官方的做法,但是对于图片资源来说,屏蔽抓取却是最好的方式。

针对单一图片:

User-agent: Googlebot-Image 
Disallow: /images/dogs.jpg

针对所有图片:

User-agent: Googlebot-Image 
Disallow: /

最后

你如何移除你的页面是根据实际情况决定的。我们已经讨论了几个方法,但是如果你仍然感到困惑,那么请再看一遍流程图。

你也可以通过谷歌提供的法律问题排查工具来删除内容。

(via ahrefs.com 译者,Park Cheng, 文章有改动)

评论留言