为什么要控制Googlebot抓取速度?

为什么要控制Googlebot抓取速度?

有时会很高兴地看到,Google几乎是在瞬间抓取您的网站。但这对于大多数网站来说不是必需的,因为内容可能每天更新一次,甚至更长的时间间隔。在内容没有更新的这种情况下,搜索引擎爬虫或机器人继续在网站上寻找更新是没有意义的。

在本文中,我们将了解您为什么要控制Googlebot以及如何控制Googlebot和其他搜索引擎爬虫的抓取速度。

为什么要控制Googlebot抓取速度?

当您有多个站点或更大的站点时,搜索引擎机器人的持续爬取将对服务器性能产生不利影响。因此,有必要控制爬取您网站的机器人的爬取速率,而Googlebot是您在许多情况下应该控制的第一个。

  • 无论是搜索引擎机器人还是真实用户,都会使用您的服务器资源。
  • 高爬取率将导致高CPU利用率,最终可能需要为额外资源支付更多费用。在共享托管环境中,您的主机可能会停止服务以保护托管在同一服务器上的其他站点。
  • 当Googlebot抓取网站时,网站上的真实用户可能会感到缓慢。特别是当您拥有电子商务网站时,必须控制Googlebot和其他经常抓取的机器人。

如果您的网站较小且流量有限,您可能不会看到机器人有任何问题。当您有多个站点每天吸引成千上万的访问者时,您会注意到由于爬虫的活动导致CPU使用率猛增。当CPU利用率很高时,您可能会收到来自托管公司的警告消息,或者您的帐户将被暂停,要求您采取必要的措施。

如何监控Googlebot?

有两种方法可以监控Googlebot的抓取活动。一种是从您的Google Search Console中进行检查,另一种是从您的托管帐户进行监控。

登录到您的Google Search Console帐户并导航到“设置”,然后抓取>抓取统计信息>打开报告。在这里,您可以查看过去90天时间范围内的Googlebot活动。您将看到三个图表——每天抓取的页面、每天下载的千字节以及下载页面所花费的时间(以毫秒为单位)。这些图表将让您全面了解Googlebot在您的网站上所做的事情。

Googlebot在您的网站上抓取数据统计

Googlebot在您的网站上抓取数据统计

第二种也是最有效的方法是通过您的主机帐户监控服务器上的活动。登录到您的托管帐户并查找其中一种统计报告工具。在这种情况下,我们使用几乎所有共享托管服务提供商(如Bluehost、SiteGround等)提供的Awstats进行解释。

打开Awstats应用程序并选择您的站点以查看统计信息。在“Robots / Spider visitors”部分查看最活跃的机器人列表。

从Awstats监控机器人

从Awstats监控机器人

 

您还可以使用WordFence等插件来监控实时流量和Googlebot活动。

当然,我们的蜘蛛分析插件也可以实现爬虫统计及行为分析,安装启用插件后,当然是统计了一段时间的数据,点击蜘蛛分析>蜘蛛概况,然后选择最近30天,在趋势图下列菜单选择为Googlebot,即可查看Googlebot最近30天URL爬取的数量。

Googlebot最近30天URL爬取

 

如何控制Googlebot的抓取速度?

当您注意到Googlebot正在抓取您的网站并消耗大量带宽时,就该控制抓取速度了。一些托管公司通过在robots.txt文件中添加条目来自动控制抓取延迟。您可以从Google Search Console手动控制Googlebot的抓取速度。登录到您的Search Console帐户后,打开您的资源的抓取速度设置页面,选择您需要设置谷歌蜘蛛爬取速度的网站。

在Google Search Console中访问抓取控制设置

在Google Search Console中访问抓取控制设置

您将在“抓取速度”部分看到两个选项。

Googlebot抓取速度控制

  • 让Google优化我的网站(推荐)
  • 限制Google的最大抓取速度

选择第二个单选按钮并将进度条向下拖动到任何所需的速率。这将设置每秒的请求数和抓取请求之间的秒数。

注:除非谷歌爬取导致您的网站性能下降严重,否则完全没必要修改谷歌爬虫的爬取速度,这一块的控制,谷歌做得相当优秀。

新的抓取速度设置将在90天内有效,并在到期后自动重置为第一个选项“让Google为我的网站进行优化”。

必应呢?

与Googlebot类似,您也可以在Bing Webmaster Tools下限制Bingbot。登录到您的帐户后,导航到“配置 > 爬网控件”,即可进行相关的设置。

必应网站管理员工具中的抓取控制

必应网站管理员工具中的抓取控制

通过选择图表上的蓝色框来调整抓取速度。

其他搜索引擎爬虫

除了Google和Bing,还有许多其他机器人可以抓取您的网站。您可以使用通用.htaccess指令阻止所有其他机器人。在您的.htaccess文件中添加以下代码以阻止除Google、Bing、MSN、MSR、Yandex和Twitter之外的所有机器人。所有其他机器人将被重定向到本地主机IP地址 127.0.0.1。

#Disable bad bots
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^$ [OR]
RewriteCond %{HTTP_USER_AGENT} (bot|crawl|robot)
RewriteCond %{HTTP_USER_AGENT} !(bing|Google|msn|MSR|Twitter|Yandex) [NC]
RewriteRule ^/?.*$ "http\:\/\/127\.0\.0\.1" [R,L]

您还可以通过IP地址拦截方式部分蜘蛛的访问和爬取拒绝

 

小结

有必要监视和控制您网站上的爬虫活动,以便将托管服务器的CPU利用率保持在允许的范围内。我们已经解释了一些方法,还有许多其他方法可以阻止坏机器人。与您的主机讨论并确保您做正确的事情并且只阻止不良机器人也是一个好主意。

最后,小编的建议是,如国内站长,像谷歌、百度、bing及搜狗等搜索引擎的蜘蛛访问爬取,非必要情况尽可能不要去干预。倒是一些不知名蜘蛛爬虫,我们应该尽可能将它们拒之门外,以免浪费服务器资源(这可以通过蜘蛛统计分析插件,实现智能拦截)。

评论留言