
网站的构建不仅仅是为了发布内容,元数据的优化也不是为了好玩;所有这些活动协同作用,才能让您的网页更容易被发现。多年来,谷歌搜索一直是提升网站可见度的主要途径,这在很大程度上要归功于其网络爬虫。
自 20 世纪 90 年代末以来,Googlebot 和其他传统爬虫一直在扫描网站、抓取 HTML 页面并对其进行索引,以帮助人们找到他们想要的内容。截至 2024 年 1 月,谷歌占据了美国所有网络流量的 63%,这主要由排名前 170 位的域名贡献。
但现在,根据麦肯锡的一项调查,一半的客户现在会使用 ChatGPT、Claude、Gemini 或 Perplexity 等人工智能工具来获取即时答案,甚至谷歌也通过 AI 概览等功能将人工智能生成的摘要融入到搜索结果中。
这些全新的人工智能驱动体验背后是一类不断增长的机器人,被称为人工智能爬虫。如果您运营的是 WordPress 网站,那么了解这些爬虫如何访问和使用您的内容比以往任何时候都更加重要。
什么是AI爬虫?
人工智能爬虫是自动机器人,它们扫描可公开访问的网页,类似于搜索引擎爬虫,但目的不同。它们不是为了传统的排名而对页面进行索引,而是收集内容来训练大型语言模型或为人工智能生成的回复提供最新信息。
广义上讲,人工智能爬虫分为两类:
- 训练爬虫,例如 GPTBot(OpenAI)和 ClaudeBot(Anthropic),收集数据来训练大型语言模型,使其能够更准确地回答问题。
- 实时检索爬虫,例如 ChatGPT-User,会在有人提出需要最新数据的问题时实时访问网站,例如查看产品描述或阅读文档。
其他爬虫,例如 PerplexityBot 或 AmazonBot,正在构建自己的索引或系统,以减少对第三方资源的依赖。虽然它们的目标各不相同,但它们都有一个共同点:它们都会从像您这样的网站抓取和读取内容。
AI爬虫的工作原理
当AI爬虫访问您的网站时,通常会执行以下操作:
- 向页面URL发送基本的GET请求(不进行交互、滚动或DOM事件操作)。
- 仅抓取服务器返回的初始HTML。它不会等待客户端JavaScript加载或执行。
- 提取所有
<a href="">,<img src="">,<script src="">和其他资源链接,然后将内部(有时也包括外部)URL添加到其抓取队列中。在许多情况下,它还会访问返回404错误的无效链接。 - 可能会尝试抓取链接的资源,例如图像、CSS文件或脚本,但仅作为原始资源,而不是用于渲染页面。
- 它会递归地重复此过程,遍历所有发现的链接,以构建网站地图。
注:由于AI爬虫通常不运行JavaScript,因此通过AJAX或React/Vue组件动态加载的内容通常对它们来说是不可见的。
另一方面,Googlebot会渲染JavaScript并索引用户实际看到的内容。
尽管如此,随着AI爬虫的快速发展,这些限制可能会随着时间的推移而改变;但目前,它们的运行方式更接近轻量级抓取工具,而不是完整的渲染引擎。
AI爬虫如何与WordPress网站交互
WordPress是一个服务器端渲染平台,它使用 PHP 在将完整的 HTML 页面发送到浏览器之前生成页面。当爬虫访问WordPress网站时,它通常可以在HTML响应中获取所需的所有内容(内容、标题、元数据、导航)。
这种服务器端渲染的结构使得大多数WordPress网站天然地对爬虫友好。无论是Googlebot还是AI爬虫,它们通常都可以扫描您的网站并轻松理解您的内容。事实上,易于抓取的内容是WordPress在传统搜索和新型AI驱动平台中表现出色的原因之一。
您是否应该允许AI爬虫访问您的内容?
人工智能爬虫默认情况下已经可以读取大多数 WordPress 网站。真正的问题是您希望它们访问哪些内容——以及您如何控制这些内容的可见性。
内容驱动型企业目前正在热烈讨论这个问题。讨论范围涵盖博客文章、文档、着陆页……实际上,任何为网络编写的内容都包含在内。您可能已经听过“为机器写作”之类的建议,因为人工智能平台越来越多地抓取实时数据,在某些情况下,现在甚至会包含指向来源的链接。我们都希望自己的内容出现在大型语言模型的输出中,就像我们希望出现在 Google 搜索结果中一样。
例如,在下面的截图中, ChatGPT 可以联网搜索某一个品牌产品的一些最新功能。它会搜索网络,扫描变更日志和链接页面,并提供包含指向来源的直接链接的摘要答案。

ChatGPT 通过联网总结内容。
虽然目前还处于早期阶段,但人工智能爬虫已经影响着人们在线提问时看到的内容。而这种影响力不容小觑。
Vercel 的首席执行官 Guillermo Rauch 在 4 月份分享说,ChatGPT 贡献了 Vercel 近 10% 的新用户注册量,而六个月前这一比例还不到 1%。这表明人工智能驱动的推荐可以多么迅速地发展成为重要的获客渠道。

Vercel 首席执行官分享的数据显示了 ChatGPT 驱动的注册量。
而且人工智能爬虫已经非常普遍。根据 Cloudflare 的数据,人工智能机器人访问了排名前一百万的网站中的约 39%,但其中只有约 3% 的网站真正阻止或限制了这些流量。
因此,即使您还没有做出决定,人工智能爬虫几乎肯定已经在访问您的网站了。
您应该允许还是阻止AI爬虫?
没有放之四海而皆准的答案。没有通用的解决方案,但这里有一个框架:
- 阻止爬虫访问敏感或低价值的路径,例如
/login,/checkout,/admin或仪表盘。这些路径无助于内容发现,只会浪费带宽。 - 允许爬虫访问“可发现内容”,例如博客文章、文档、产品页面和定价信息。这些页面最有可能被人工智能回复引用,并带来高质量的流量。
- 对于付费内容或受限内容,需要进行战略性决策。如果您的内容本身就是您的产品(例如新闻、研究报告、课程),那么人工智能的无限制访问可能会损害您的业务。
目前正在出现一些新的工具来提供帮助。例如,Cloudflare 正在试验一种名为“按抓取次数付费”(Pay Per Crawl)的模式,该模式允许网站所有者向人工智能公司收取访问费用。该模式目前仍处于内部测试阶段,实际应用尚处于早期阶段,但这一想法已获得大型出版商的强烈支持,他们希望更好地控制其内容的使用方式。
搜索和营销领域的其他人士则更为谨慎,因为默认阻止可能会无意中降低那些希望获得曝光的网站在人工智能搜索结果中的可见度。目前,这仍然是一个有前景的实验,而不是一个成熟的收入来源。
在这些系统成熟之前,最实际的方法是选择性开放,即允许抓取发现内容,阻止敏感区域的访问,并随着生态系统的发展重新评估您的规则。
如何在WordPress上控制AI爬虫的访问
如果您不希望人工智能爬虫访问您的 WordPress 网站并扫描其内容,好消息是您可以重新获得控制权。
以下是管理 WordPress 上人工智能爬虫访问的三种方法:
- 手动编辑您的
robots.txt文件。 - 使用插件来完成此操作。
- 使用 Cloudflare 的机器人防护功能。
让我们详细介绍这三种方法。
方法 1:使用robots.txt手动阻止人工智能爬虫
您的 robots.txt 文件会告诉机器人它们可以抓取您网站的哪些部分。大多数知名的人工智能爬虫,例如 OpenAI 的 GPTBot、Anthropic 的 Claude-Web 和 Google-Extended,都会遵守这些规则。
您可以完全阻止特定的机器人,允许它们完全访问,或限制它们访问您网站的某些部分。例如,要阻止所有内容,您可以将以下内容添加到您的 robots.txt 文件中,尽管大多数网站不建议这样做:
User-agent: GPTBot Disallow: / User-agent: Claude-Web Disallow: / User-agent: Google-Extended Disallow: /
要完全允许 OpenAI 的 GPTBot:
User-agent: GPTBot allow:
如果您只想阻止 OpenAI 的 GPTBot 抓取您网站的特定部分,例如您的登录页面(抓取工具对该页面没有任何价值),可以这样做:
User-agent: GPTBot Disallow: /login/
这种选择性阻止至关重要。像 /login, /checkout, 或 /admin 这样的敏感路径无助于提高网站的可发现性,因此几乎总是应该被阻止。另一方面,产品页面、功能概述或帮助中心等页面则适合向搜索引擎爬虫开放,因为它们可以带来引用和推荐流量。
您可以通过以下方式手动添加此 robots.txt 文件:
- 使用我们的 Smart SEO Tool, Yoast 等 SEO 插件(工具 > 文件编辑器)。
- 使用 WP File Manager 等文件管理器插件。
- 或者通过 FTP 直接在服务器上编辑
robots.txt文件。
方法 2:使用WordPress插件
如果您不习惯直接编辑 robots.txt 文件,或者只是想要一种更快、更安全的方式来管理 AI 爬虫的访问,那么插件可以帮助您轻松完成这项工作。
Raptive Ads
Raptive Ads WordPress 插件内置了阻止 AI 爬虫的功能:
- 您可以直接在插件设置中切换要阻止的机器人。
- 大多数 AI 机器人(例如 GPTBot 和 Claude)默认情况下会被阻止。
- Google-Extended 默认情况下不会被阻止,但如果您想选择退出 Google 的 AI 训练,可以勾选相应的复选框。
使用此插件的一个主要优势是,阻止 Google-Extended 不会影响您的 Google 排名或在常规搜索结果中的可见性。
Block AI Crawlers
Block AI Crawlers 插件专为 WordPress 网站所有者设计,旨在让他们更好地控制 AI 爬虫如何与网站内容交互。具体如下:
- 通过自动将正确的
Disallow规则添加到您网站的robots.txt文件中,阻止 75 种以上的已知 AI 机器人。 - 无需任何配置。安装插件,转到“设置”>“阅读”,然后勾选“Block AI Crawlers”复选框。
- 轻量级且开源,并定期从 GitHub 获取更新。
- 设计用于在大多数 WordPress 安装中开箱即用。
Block AI Crawlers 插件是阻止不需要的 AI 机器人访问您网站的最简单方法之一,尤其是在您没有使用高级 SEO 插件的情况下。
注:如果您的 WordPress 网站使用物理 robots.txt 文件(而不是 WordPress 生成的虚拟文件),则这些插件将无法自动进行更改。在这种情况下,您需要手动添加条目。
选项 3:使用Cloudflare的一键式AI机器人阻止程序
如果您的 WordPress 网站使用 Cloudflare(许多网站都使用),您只需单击一下即可阻止数十种已知和未知的 AI 机器人。
2024 年年中,Cloudflare 推出了专门的 AI 爬虫和抓取工具防护功能,即使是免费套餐用户也能使用。这项功能不仅依赖于 robots.txt 文件,还能在网络层面阻止机器人程序,甚至包括那些伪装身份的机器人。
您可以按照以下步骤启用此功能:
- 登录您的 Cloudflare 控制面板
- 前往 Security > Settings
- 在 Filter by 部分,选择“Bot traffic”。
- 找到 Bot fight mode 并将其开启。

Cloudflare 控制面板显示“Bot Fight Mode”选项。
如果您使用的是 Cloudflare 付费套餐,则可以访问“超级机器人防护模式”,这是“机器人防护模式”的增强版本,功能更加灵活。它基于相同的技术构建,但允许您选择如何处理不同的流量类型,并启用 JavaScript 检测来捕获无头浏览器、隐秘爬虫和其他恶意流量。
例如,您可以配置该工具,使其仅阻止“确定是自动化流量”的请求,并允许“已验证的机器人”,例如搜索引擎爬虫,而不是阻止所有爬虫:

Cloudflare 的超级机器人防护模式。
就是这样。Cloudflare 会自动阻止来自 AI 机器人的请求。
如果您想深入了解这些工具(包括机器人防护模式、超级机器人防护模式和目标挑战规则)如何协同工作,您可以阅读我们关于如何使用Cloudflare为WordPress网站拦截恶意机器人流量的教程文章。
这种转变对您的WordPress网站意味着什么
AI 爬虫现在已成为人们在线发现信息的方式之一。这项技术是新的,规则仍在制定中,网站所有者正在决定他们希望公开多少内容。
好消息是,WordPress 网站已经处于有利地位。由于 WordPress 输出的是完全渲染的 HTML,大多数 AI 爬虫无需特殊处理即可清晰地解析您的内容。真正的战略决策不是 AI 爬虫是否可以访问您的网站,而是多少访问量有助于实现您的目标。
随着流量类型的变化,拥有易于理解和管理的资源使用情况的托管选项非常重要。结合 Cloudflare 的机器人防护功能和您自己的爬虫规则,您可以完全控制网站的访问方式。阿里云也有类似的功能,但费用相对会高一些,有兴趣的站长朋友可以了解下阿里云的 ESA。


评论留言