如何禁止搜索引擎索引WordPress网站

如何禁止搜索引擎索引WordPress网站

您可能注意到WordPress后台存在一个设置,上面写着“建议搜索引擎不索引本站点”。

或者,您可能正在寻找一种方法来对不受欢迎的访问者隐藏您的网站,并想知道这个小复选框是否足以使您的内容安全保密。

这个选项是什么意思?它到底对您的网站做了什么?为什么要避免依赖它——即使你试图隐藏你的内容?以下是答案和其他一些方法,可以为您的网站取消索引并阻止对某些页面的访问。

  1. 建议搜索引擎不索引本站点是什么意思?
  2. 如何检查您的网站是否开放给搜索引擎
  3. 如何阻止搜索引擎索引WordPress网站
  4. 禁止搜索引擎索引网站的其他方法

建议搜索引擎不索引本站点是什么意思?

您有没有想过搜索引擎如何索引您的网站并衡量您的搜索引擎优化?他们使用称为蜘蛛(也称为机器人或爬虫)的自动化程序来完成此操作。蜘蛛“爬行”网络,访问网站并记录您的所有内容。

Google使用它们来决定如何在搜索结果中对您的网站进行排名和放置,从您的文章中抓取搜索结果页面的简介,并将您的图片拉入Google图片。

当您勾选“建议搜索引擎不索引本站点”时,WordPress会修改您的robots.txt文件(该文件向蜘蛛提供有关如何抓取您的站点的说明)。它还可以在您网站的标题中添加一个元标记,告诉Google和其他搜索引擎不要将您整个网站上的任何内容编入索引。

这里的关键词是“劝阻”:搜索引擎没有义务满足这个要求,尤其是那些不使用谷歌使用的标准robots.txt语法的搜索引擎(你可以通过闪电博提供的蜘蛛爬虫查询工具,查看哪些爬虫遵守或者不遵守robots协议)

网络爬虫仍然能够找到您的站点,但正确配置的爬虫会读取您的robots.txt并离开而不将内容编入索引或显示在其搜索结果中。

过去,WordPress中的此选项并没有阻止Google在搜索结果中显示您的网站,只是将其内容编入索引。您仍然可以看到您的网页出现在搜索结果中,并显示错误,例如“此网页没有可用信息”或“由于网站的robots.txt,此结果的说明不可用”。

虽然谷歌没有索引页面,但他们也没有完全隐藏页面。这种异常导致人们能够访问他们不应该看到的页面。感谢WordPress 5.3 ,它现在可以正常工作,阻止网站的索引和列表。

您可以想象如果您不小心启用了这将如何破坏您的SEO。仅当您真的不希望任何人看到您的内容时才使用此选项至关重要 – 即便如此,它也可能不是您想要采取的唯一措施。

为什么您可能不想将您的网站编入索引

网站是为了让人们看到。您希望用户阅读您的文章、购买您的产品、消费您的内容——您为什么要故意阻止搜索引擎?您可能想要隐藏部分或全部网站的原因有几个。

  • 您的网站正在开发中,尚未准备好让公众看到。
  • 您使用WordPress作为内容管理系统,但希望将所述内容保密。
  • 您正试图隐藏敏感信息。
  • 您希望只有少数人通过链接或邀请访问您的网站,而不是通过公共搜索页面。
  • 您想将某些内容放在付费专区或其他门之后,例如时事通讯独家文章。
  • 您想切断旧的、过时的文章的流量。
  • 您想防止在测试页面或重复内容上受到SEO处罚。

对于其中一些有更好的解决方案——使用适当的离线开发服务器,将您的文章设置为private ,或将它们置于密码后面——但是您可能想要取消部分或全部站点的索引是有正当理由的。

如何检查您的网站是否开放给搜索引擎

虽然您可能有正当理由对您的网站取消索引,但得知您无意中打开了此设置或无意中将其打开时,可能会感到震惊。如果您的流量为零并怀疑您的网站没有被编入索引,请按以下方法确认。

一种直接的方法是选中位于管理仪表盘主屏幕上的“概览”只需登录您的后端并选中该框即可。如果您看到“自动建议搜索引擎不抓取”,那么您就知道您已激活该设置。

WordPress仪表盘中的“概览”。

WordPress仪表盘中的“概览”。

更可靠的方法是检查您的robots.txt 。您甚至无需登录您的站点即可在浏览器中轻松验证这一点。要检查robots.txt ,您需要做的就是将/robots.txt添加到站点URL的末尾。例如: https://www.wbolt.com/robots.txt

如果您看到Disallow: /则您的整个站点都被禁止索引。

robots.txt中的“Disallow”

robots.txt中的“Disallow”

如果您看到Disallow:后跟URL路径,例如Disallow: /wp-admin/ ,则表示任何带有/wp-admin/路径的URL都不允许搜索引擎索引。这种结构对于某些页面来说是正常的,但是,例如,如果它拦截了/blog/ ,其中包含您想要索引的页面,则可能会导致问题!

既然WordPress使用元标记而不是robots.txt来对您的网站取消索引,您还应该检查您的标题是否有修改。登录到您的后端并转到外观>主题编辑器。找到Theme Header (header.php)并查找以下代码:

< meta name = 'robots' content = 'noindex,nofollow' />

在header.php中的noindex, nofollow

在header.php中的noindex, nofollow

您还可以检查functions.php中的noindex标记,因为可以通过此文件远程将代码插入到标头中。如果您在主题文件中找到此代码,则说明您的网站没有被Google编入索引。但与其手动删除它,不如先尝试关闭原始设置。

如何阻止搜索引擎索引WordPress网站

如果您想跳过额外的步骤并直接进入原始设置,这里是如何在WordPress中激活或停用“禁止搜索引擎”选项。

登录您的WordPress仪表盘并导航至设置 > 阅读 。查找带有标记为“对搜索引擎的可见性”的“建议搜索引擎不索引本站点”的复选框

对搜索引擎的可见性复选框

对搜索引擎的可见性复选框

如果您发现这已经打开并希望您的网站被编入索引,请取消选中它。如果您打算阻止您的网站被编入索引,请勾选它(并在某处记下备注,提醒您稍后将其关闭!)。

现在单击保存更改,您就可以开始了。重新索引您的网站或将其从搜索结果中拉出可能需要一些时间。

如果您的网站仍被取消索引,您还可以noindex代码,或手动编辑robots.txt以删除“Disallow”标志。

所以这很简单,但是您应该避免使用此选项或至少不完全依赖它的一些原因是什么?

使用建议搜索引擎不索引本站点选项的缺点

看起来很简单——勾选一个复选框,没有人能够看到你的网站。这还不够好吗?为什么要避免单独使用此选项?

当您打开此设置或任何类似的选项时,它所做的只是在您的标题或robots.txt中添加一个标签。正如旧版本的WordPress仍然允许您的网站出现在搜索结果中所示,一个小故障或其他错误可能会导致人们看到您所谓的隐藏页面。

此外,完全取决于搜索引擎是否接受不抓取您网站的请求。主要的搜索引擎如Google和Bing通常都会,但并非所有搜索引擎都使用相同的robots.txt语法,并且并非所有爬行网络的蜘蛛都是由搜索引擎发出的。

例如,利用网络爬虫的一项服务是Wayback Machine 。如果您的内容被这样的服务编入索引,它就会永远在网络上。

Wayback Machine

Wayback Machine

您可能会认为仅仅因为您的全新网站没有指向它的链接,它就可以免受蜘蛛的侵害,但事实并非如此。存在于共享服务器上,发送带有指向您网站链接的电子邮件,甚至在浏览器(尤其是 Chrome)中访问您的网站都可能会打开您的网站,直到被抓取。

如果您想隐藏内容,那么添加参数并不是一个好主意,并希望它能成功。

让我们明确一点,如果您要取消索引的内容具有敏感或个人性质,则绝对不应依赖robots.txt或元标记来隐藏它。

最后但并非最不重要的一点是,此选项会将您的网站完全隐藏在搜索引擎中,而很多时候您只想对某些页面取消索引。

那么你应该做些什么来代替这种方法或与这种方法一起做呢?

禁止搜索引擎索引的其他方法

虽然WordPress提供的选项通常会起作用,但在某些情况下,使用其他隐藏内容的方法通常会更好。甚至Google自己也说不要使用robots.txt隐藏页面

只要您的网站有域名并且位于面向公众的服务器上,就无法保证您的内容不会被爬虫看到或编入索引,除非您将其删除或将其隐藏在密码或登录要求后面。

也就是说,有什么更好的方法可以隐藏您的网站或其中的某些页面?

使用.htaccess拦截搜索引擎

虽然它的实现在功能上与简单地使用“阻止搜索引擎”选项相同,但您可能希望手动使用.htaccess来阻止对您网站的索引。

您需要使用FTP/SFTP程序来访问您的站点并打开.htaccess文件,该文件通常位于根文件夹(您打开站点时看到的第一个文件夹)或public_html中。将此代码添加到文件中并保存:

Header set X-Robots-Tag "noindex, nofollow"

注意:此方法仅适用于Apache服务器。 NGINX服务器,需要将此代码添加到.conf文件中,该文件可以在/etc/nginx/中找到(您可以在此处找到元标记实现的示例):

add_header X-Robots-Tag "noindex, nofollow";

密码保护敏感页面

如果您不希望搜索引擎索引某些文章或页面,隐藏它们的最佳方法是使用密码保护您的站点。这样,只有您和您想要的用户才能看到该内容。

幸运的是,此功能内置于WordPress中,因此无需安装任何插件。只需转到文章页面,然后单击要隐藏的页面。编辑您的页面并查找右侧可见性菜单。

如果您不使用古腾堡,则过程类似。您可以在“发布”框中找到相同的菜单。将可见性更改为受密码保护并输入密码,然后保存 – 您的内容现在对公众隐藏。

将文章设置为密码保护

将文章设置为密码保护

如果您想用密码保护整个网站怎么办?每个页面都需要密码是不切实际的。

您可以使用内容限制插件(例如Password Protected )。请安装并激活它,然后前往设置 > Password Protected并启用Password Protected Status 。这为您提供了更好的控制,甚至允许您将某些IP地址列入白名单。

将文章设置为密码保护

将文章设置为密码保护

通过WordPress插件来实现

当WordPress的默认功能不够用时,一个好的插件通常可以解决您的问题。

例如,如果您想对特定页面而不是整个站点取消索引,Yoast可以使用此选项。

在Yoast SEO中,您可以打开要隐藏的页面,然后在“Advanced选项卡下查找选项:Allow search engines to show this Post in search results? 将其更改为No,页面将被隐藏。

Yoast SEO设置

Yoast SEO设置

您应该注意,这两种方法都依赖与WordPress阻止搜索引擎索引的默认选项相同的方法,并且存在相同的缺陷。某些搜索引擎可能不会满足您的要求。如果您真的想完全隐藏此内容,则需要使用其他方法。

另一种解决方案是支付您的内容或将其隐藏在所需的登录名后面。 Simple MembershipUltimate Member插件可以帮助您设置免费或付费的会员内容。

Simple Membership插件

Simple Membership插件

使用临时站点进行测试

在处理测试项目或进行中的网站时,保持它们隐藏的最佳选择是使用暂存或开发站点。这些网站是私有的,通常托管在本地机器上,只有您和您允许的其他人才能访问。

许多Web 主机将为您提供易于部署的临时站点,并允许您在准备好时将它们推送到您的公共服务器。

如果您无法访问创建临时站点的简单方法, WP STAGING插件可以帮助您复制安装并将其移动到文件夹中以便于访问。

使用Google Search Console暂时隐藏网站

Google Search Console是一项服务,可让您声明对网站的所有权。随之而来的是能够暂时阻止Google将某些页面编入索引。这种方法有几个问题:它是Google独有的(所以像 Bing 这样的网站不会受到影响)并且它只能持续6个月。

但是,如果您想要一种快速简便的方法来暂时将您的内容从Google搜索结果中删除,这就是实现的方法。

如果您还没有,则需要将您的网站添加到Google Search Console 。完成后,打开Removals并选择Temporary Removals > New Request 。然后单击仅删除此 URL并链接要隐藏的页面。

这是一种更可靠的内容拦截方式,但同样,它仅适用于Google,并且只能持续 6 个月。

小结

您可能想要隐藏站点上的内容的原因有很多,但依靠“建议搜索引擎不索引本站点”选项并不是确保此类内容不被看到的最佳方法。

除非您想在网络上隐藏您的整个网站,否则永远不要单击此选项,因为如果不小心切换,它会对您的SEO造成巨大损害。

即使您确实想隐藏您的站点,此默认选项也是一种不可靠的方法。它应该与密码保护或其他阻止配对,尤其是在您处理敏感内容时。

评论留言