爬虫流量泛滥:一文搞懂识别、过滤与拦截恶意爬虫

爬虫流量泛滥:一文搞懂识别、过滤与拦截恶意爬虫

每一个人类访问网站,就有 3 个机器人访问。

惊讶吗?我们也一样。

但根据我们的内部数据,自 2025 年 1 月以来,机器人流量平均占 71.5%。

来自 ChatGPT(9.16%)、Claude(6.09%)和其他 LLM 的人工智能爬虫经常出现在我们的机器人流量数据中,而像 Googlebot 这样的搜索引擎机器人仅占流量的 7.57%。

我们不能完全屏蔽它们,因为大多数机器人都是必要的。例如,Googlebot 可以帮助您的网站出现在搜索结果中,或者 ChatGPT 机器人会在回复中引用您的品牌作为来源。

但是,如果您发现联系表单中的流量激增或出现垃圾留言条目,就需要采取行动了。

机器人流量激增究竟有多严重?

以下是闪电博网站近七天机器人流量明细:

闪电博网站近七天机器人流量

上述数据是通过 Spider Analyser 插件统计,就统计的数据来看,恶意机器人好像占比尚好。不过营销机器人的爬取似乎有点过分,要不要采取进一步动作呢?

我们的发现与 Imperva 的《2025 年恶意机器人报告》非常一致,该报告指出,目前 51% 的互联网流量来自自动化来源,其中 37% 被归类为恶意机器人。

挑战在于灰色地带。

一些 AI 训练爬虫(例如 GPTBot)会收集您的内容来训练语言模型,而不会直接为您的网站带来流量收益。

但这些爬虫究竟是“好”还是“坏”,取决于您对 AI 公司将您的内容用于商业目的的看法。

好机器人与坏机器人:有何区别

好机器人与坏机器人:有何区别

并非所有自动流量都值得屏蔽。在采取任何措施管理网站上的机器人程序之前,您需要了解哪些机器人程序对您的业务有益,哪些机器人程序会损害您的业务。

有益于您网站的良性机器人

  • 搜索引擎爬虫例如,Googlebot 和 Bingbot 会将您的内容编入索引以用于搜索结果。
  • 社交媒体机器人:例如 FacebookExternalAgent,会在用户分享您的内容时生成链接预览。
  • 监控服务这些服务会检查您网站的正常运行时间和性能。
  • AI搜索爬虫:例如 ChatGPT-User 和 Perplexity-User,会在回答用户查询时引用您的内容。

消耗您资源的恶意机器人

  • 内容抓取器:这些机器人程序会窃取您的文章、产品描述和图片。
  • 表单垃圾邮件机器人程序:它们会用垃圾提交内容淹没联系表单。
  • 价格监控机器人程序:来自跟踪您定价策略的竞争对手。
  • 库存囤积机器人程序:这些机器人程序会在您未购买的情况下将商品添加到购物车。
  • 凭证填充机器人:它们试图侵入用户帐户。

影响小型企业网站的隐性成本

无论机器人类型如何,自动流量都会在三个关键方面影响您的网站:

  • 托管费用
  • 安全风险
  • 数据准确性

每次机器人访问都会像人类访问者一样消耗服务器资源,但却无法带来转化、参与或收入。

1. 您的基础设施成本持续攀升

每个机器人请求都会占用您的带宽、处理能力和存储空间。

如果您的网站或电商平台内容繁多,您可能会很快发现这些成本会对您的钱包造成冲击。

“Read the Docs”项目在屏蔽人工智能爬虫后,流量减少了 75%,每天的服务量从 800GB 减少到 200GB,每月节省了 1,500 美元的带宽成本。

如果您使用的是共享主机方案,则不会产生直接成本。

然而,过多的机器人流量可能会导致您的主机商限制网站性能。更激进的机器人活动可能会迫使您比计划更早地需要 VPS 或专用主机解决方案。

2. 安全和垃圾评论问题愈演愈烈

恶意机器人会瞄准您的联系表单、登录页面和结账流程。

它们会寻找漏洞,尝试凭证填充攻击,还会向表单中发送大量垃圾信息。由于大多数网站只具备基本的安全保障,它们成为了极具吸引力的目标。

如果您的联系表单或博客评论中包含垃圾信息,我建议您立即安装 Askimet,这样垃圾信息就会减少。但请记住,Askimet 不会阻止机器人流量。

您需要自行采取措施阻止机器人(稍后会详细介绍)。

3. 您的分析数据受到污染

机器人流量会扰乱您的网站分析。

当机器人访问页面时,它们不会与内容互动,从而导致人为地产生高流量,但转化率却为零。

这种污染几乎使您无法衡量真实的用户行为、优化转化渠道或做出数据驱动的营销决策。

即使 Google Analytics(分析)允许您过滤流量以缩小分析范围,也很难区分机器人流量和普通人类访问者。

如何查找您网站上的机器人流量

目前还没有万无一失的方法来查找所有机器人流量,因为高级机器人几乎与人类访问者难以区分。

但您可以采取一些步骤来开始监控。

1. 从服务器管理面板的流量仪表盘开始

部分服务器提供商提供流量监控支持,可让您清晰地查看流量活动,包括机器人行为。您可以监控峰值、检测异常情况,并跟踪有多少机器人可能正在影响您的网站,所有这些都无需第三方工具。

  • 一目了然地区分真人流量和机器人流量
  • 按 IP、引荐来源或用户代理查看流量
  • 及早发现模式,以便您快速采取行动

流量仪表盘

这对于喜欢内置工具而非复杂仪表盘的用户尤其有用。额外福利——无需额外配置!

2. 使用Google Analytics深入分析

查看您的 Google Analytics 仪表盘,寻找以下机器人活动频繁的迹象:

  • 流量激增,跳出率相应上升
  • 页面浏览量高,但页面停留时间为零
  • 异常的地理流量模式(来自您未运营国家/地区的流量突然增加)
  • 来自陌生域名的引荐来源垃圾流量

前往“报告”→“技术”,并使用 GA4 的技术过滤功能缩小到用户技术。

Google Analytics

在这里,您可以按浏览器和操作系统、屏幕分辨率、设备、应用版本等进行筛选。您需要查找的是一些不常见的浏览器、不常见的操作系统和不常见的屏幕分辨率,例如:

  • 1024 x 768
  • 1366 x 768
  • 1600 x 864
  • 800 x 600
  • 1600 x 1200
  • 1024 x 667
  • Not Specified

这会从您的追踪中剔除一些真正的访客,但您也会在分析数据中看到更少的机器人条目。

注:高级机器人可以使用普通分辨率和最新的设备版本来伪装其活动。除非您在访客访问您的网站之前就开始筛选,否则很难将这些机器人筛选出来进行分析。

3. 检查服务器日志

如果您可以访问主机控制面板,请查看服务器访问日志,查找表明存在自动流量的模式:

  • 来自单个 IP 地址的快速请求。
  • 向不存在的页面发出的请求(通常是探测漏洞的机器人程序)。
  • 被识别为已知爬虫(包括良性和恶意爬虫)的用户代理。
  • 不含引荐来源信息的请求。

许多主机提供商在其控制面板中提供日志分析工具。查找与营销活动或内容更新无关的带宽使用量异常峰值。

一旦您获得了疑似重复违规的 IP 地址列表,就可以开始从您的网络服务器(例如 NGINX 或 Apache)或 CDN 阻止这些 IP 地址。

4. 使用第三方监控工具

有时,您只能识别有限的流量。因此,市面上有免费的第三方工具,例如 Cloudflare Analytics(如果您使用其服务),可以提供机器人流量细分。

还有其他一些综合性应用,例如:

  • Wordfence:适用于 WordPress 网站;识别恶意机器人攻击
  • Sucuri:提供带有机器人检测功能的网站防火墙服务
  • MonsterInsights:提供增强型 Google Analytics 报告,并带有机器人过滤功能

管理和拦截恶意爬虫,避免误伤良性爬虫

我建议缓慢地拦截爬虫流量,因为您可能会意外地拦截真实用户。此外,您还需要采取一种平衡的策略,在拦截有害的自动流量的同时,保留有益的爬虫程序。

以下是我在不意外拦截搜索引擎或合法服务的情况下实施爬虫管理的方法。

设置您的robots.txt文件

您的 robots.txt 文件是抵御恶意爬虫程序的第一道防线。

在您网站的根目录中创建或更新该文件,并针对不同类型的机器人提供具体的说明:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# Block AI training crawlers
User-agent: GPTBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
# Allow search engines
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Allow AI search bots that cite sources
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
# Block AI training crawlers User-agent: GPTBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Google-Extended Disallow: / # Allow search engines User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / # Allow AI search bots that cite sources User-agent: ChatGPT-User Allow: / User-agent: PerplexityBot Allow: /
# Block AI training crawlers
User-agent: GPTBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
# Allow search engines
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Allow AI search bots that cite sources
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /

如果您无法直接访问 robots.txt 文件并使用 WordPress,可以尝试使用 WP Robots Txt 插件,该插件可让您从 WordPress 信息中心编辑该文件。

注:当然 Smart SEO Tool 这个专业 SEO 插件内部就提供 robots.txt 文件编辑器。没必要为了一点点小事情,安装一个功能单一的插件。

请记住,robots.txt 的运行遵循诚信系统。行为良好的爬虫程序会遵守这些指令,但恶意机器人通常会完全忽略该文件。

实施网站防火墙

为了更积极的网站安全,可以实施 Web 应用防火墙 (WAF),它可以在服务器级别阻止机器人程序。

作为管理低流量网站的小型企业主,您还有其他一些选择。

Cloudflare 免费套餐

  • 提供基本的机器人程序防御功能
  • 自动阻止明显的恶意流量
  • 提供针对特定威胁的可自定义防火墙规则

Wordfence(WordPress 用户)

  • 包含机器人程序检测和阻止功能
  • 实时威胁情报更新
  • 可自定义的速率限制,以防止快速请求

服务器级速率限制

许多托管服务提供商都提供速率限制功能,可以自动减慢或阻止在短时间内发出过多请求的 IP 地址。您可以配置这些速率限制器,以阻止在短时间内浏览过多页面的 IP 地址。

例如,正常人需要几秒钟浏览页面才能点击不同的链接。而机器人只需几毫秒即可完成相同的操作。

WordPress网站的插件解决方案

如果您正在运行 WordPress,则有更多机器人管理选项:

  • Spider Analyser蜘蛛爬虫行为监测和洞悉,快速拦截不良机器人。
  • Akismet使用先进的人工智能过滤技术,自动过滤垃圾评论和表单,准确率高达 99.99%。对于任何接受用户提交内容的 WordPress 网站来说,这都是必备工具。
    WP Cerber Security提供全面的机器人防护,包括登录尝试限制、IP 地址拦截和先进的机器人检测算法。
    All-In-One Security (AIOS):提供适用于小型企业网站的防火墙功能和机器人拦截功能。

完整的机器人防护实施路径

爬虫流量泛滥:一文搞懂识别、过滤与拦截恶意爬虫插图5

我已将此实施计划拆分,以便能够在紧凑的时间表内完成,并帮助您在短时间内从零防护过渡到有效的机器人防御。

20分钟:快速见效

  • 更新 robots.txt 文件
  • 启用基本安全插件
  • 检查 Google Analytics(分析)中的机器人攻击模式

从 robots.txt 文件开始,因为这是最简单的第一步。登录您网站的文件管理器(或使用 FTP),然后在根目录中创建或更新 robots.txt 文件。复制本文前面提到的 robots.txt 配置并粘贴到文件中。

如果您正在运行 WordPress,请立即安装并激活 Wordfence 安全插件。免费版本包含基本的机器人防护功能,并将立即开始阻止明显的恶意流量。

打开 Google Analytics(分析)检查您的流量来源是否存在异常模式。查找您未提供服务的国家/地区、流量突然激增或会话时长为零的高跳出率。

24小时:多层防御

  • 设置免费 Cloudflare 帐户
  • 配置速率限制
  • 在表单中添加验证码
  • 启用评论审核

注册免费 Cloudflare 帐户并添加您的网站。Cloudflare 位于您的网站和访问者之间,会在明显的机器人流量到达您的服务器之前自动阻止它们。设置大约需要 30 分钟,包括更改 DNS 设置,但 Cloudflare 会引导您完成每个步骤。

通过您的主机设置速率限制,自动减慢或阻止发出过多请求的 IP 地址。配置限制,允许正常浏览(每页几秒钟),但阻止恶意爬虫(每秒多个页面)。

使用 WordPress 的 reCAPTCHA 插件或 Cloudflare Turnstile 为易受攻击的表单添加验证码。在联系表单、评论区和用户注册页面添加隐形验证码,以阻止自动提交,而不会打扰真实用户。

一周:监控和优化

  • 分析服务器日志
  • 微调防火墙规则
  • 设置监控警报
  • 屏蔽问题 IP 范围

分析服务器访问日志,识别特定于您网站的机器人程序模式。查找来自单个 IP 地址的快速请求、对不存在页面的请求以及可疑的用户代理字符串。大多数主机控制面板都包含日志分析工具,可以简化此操作。

使用这些数据在 Cloudflare 或您的安全插件中创建自定义防火墙规则。例如,如果您发现来自特定国家/地区的机器人程序持续引发问题,您可以屏蔽整个地理区域。或者,如果某些用户代理程序持续频繁访问您的网站,请屏蔽这些特定的字符串。

设置监控警报,以便您了解机器人程序流量高峰的发生时间。UptimeRobotPingdom 等工具可以提醒您异常的流量模式、加载时间过长或服务器资源峰值,这些都可能表明存在机器人程序攻击。

一个月:高级防护

  • 实施行为分析
  • 部署 API 速率限制
  • 设置 CDN 缓存
  • 创建机器人蜜罐

添加行为分析工具,例如 DataDome 或 Imperva,通过分析鼠标移动、输入模式和页面交互时间来检测机器人。这些工具可以捕获模仿人类行为的复杂机器人。

使用 CDN 积极缓存静态资源。这样,机器人流量会访问缓存,而不是主机,从而减少重复请求的负载。

我最喜欢的技巧之一是创建机器人蜜罐。如果您发现大量表单垃圾邮件,请在表单中添加一个额外的隐藏字段。由于机器人在填写表单时会查看页面 HTML,它们会看到这个隐藏字段并向其中添加一些数据。您可以安全地删除所有包含隐藏字段文本的表单条目,因为人类访问者无法看到它。

小结

爬虫流量不会消失。我们网络访问量中有 71.5% 来自自动化来源,如今互联网上爬虫的数量是人类的三倍。

然而,尽管大多数网站所有者仍在摸索究竟发生了什么,但您已经拥有了扭转爬虫混乱局面所需的一切,从而为您的业务带来积极影响,甚至从这些良性爬虫中获益。

所以,趁您的竞争对手还在为虚假流量而担忧的时候,赶紧开始实施爬虫管理系统吧!

评论留言