AI爬蟲詳解：AI機器人如何與您的WordPress網站互動

網站的構建不僅僅是為了釋出內容，後設資料的最佳化也不是為了好玩；所有這些活動協同作用，才能讓您的網頁更容易被發現。多年來，谷歌搜尋一直是提升網站可見度的主要途徑，這在很大程度上要歸功於其網路爬蟲。

自 20 世紀 90 年代末以來，Googlebot 和其他傳統爬蟲一直在掃描網站、抓取 HTML 頁面並對其進行索引，以幫助人們找到他們想要的內容。截至 2024 年 1 月，谷歌佔據了美國所有網路流量的 63%，這主要由排名前 170 位的域名貢獻。

但現在，根據麥肯錫的一項調查，一半的客戶現在會使用 ChatGPT、Claude、Gemini 或 Perplexity 等人工智慧工具來獲取即時答案，甚至谷歌也透過 AI 概覽等功能將人工智慧生成的摘要融入到搜尋結果中。

這些全新的人工智慧驅動體驗背後是一類不斷增長的機器人，被稱為人工智慧爬蟲。如果您運營的是 WordPress 網站，那麼瞭解這些爬蟲如何訪問和使用您的內容比以往任何時候都更加重要。

什麼是AI爬蟲？

人工智慧爬蟲是自動機器人，它們掃描可公開訪問的網頁，類似於搜尋引擎爬蟲，但目的不同。它們不是為了傳統的排名而對頁面進行索引，而是收集內容來訓練大型語言模型或為人工智慧生成的回覆提供最新資訊。

廣義上講，人工智慧爬蟲分為兩類：

訓練爬蟲，例如 GPTBot（OpenAI）和 ClaudeBot（Anthropic），收集資料來訓練大型語言模型，使其能夠更準確地回答問題。
即時檢索爬蟲，例如 ChatGPT-User，會在有人提出需要最新資料的問題時即時訪問網站，例如檢視產品描述或閱讀文件。

其他爬蟲，例如 PerplexityBot 或 AmazonBot，正在構建自己的索引或系統，以減少對第三方資源的依賴。雖然它們的目標各不相同，但它們都有一個共同點：它們都會從像您這樣的網站抓取和讀取內容。

AI爬蟲的工作原理

當AI爬蟲訪問您的網站時，通常會執行以下操作：

向頁面URL傳送基本的GET請求（不進行互動、滾動或DOM事件操作）。
僅抓取伺服器返回的初始HTML。它不會等待客戶端JavaScript載入或執行。
提取所有 <a href="">, <img src="">, <script src=""> 和其他資源連結，然後將內部（有時也包括外部）URL新增到其抓取佇列中。在許多情況下，它還會訪問返回404錯誤的無效連結。
可能會嘗試抓取連結的資源，例如影像、CSS檔案或指令碼，但僅作為原始資源，而不是用於渲染頁面。
它會遞迴地重複此過程，遍歷所有發現的連結，以構建網站地圖。

注：由於AI爬蟲通常不執行JavaScript，因此透過AJAX或React/Vue元件動態載入的內容通常對它們來說是不可見的。

另一方面，Googlebot會渲染JavaScript並索引使用者實際看到的內容。

儘管如此，隨著AI爬蟲的快速發展，這些限制可能會隨著時間的推移而改變；但目前，它們的執行方式更接近輕量級抓取工具，而不是完整的渲染引擎。

AI爬蟲如何與WordPress網站互動

WordPress是一個伺服器端渲染平臺，它使用 PHP 在將完整的 HTML 頁面傳送到瀏覽器之前生成頁面。當爬蟲訪問WordPress網站時，它通常可以在HTML響應中獲取所需的所有內容（內容、標題、後設資料、導航）。

這種伺服器端渲染的結構使得大多數WordPress網站天然地對爬蟲友好。無論是Googlebot還是AI爬蟲，它們通常都可以掃描您的網站並輕鬆理解您的內容。事實上，易於抓取的內容是WordPress在傳統搜尋和新型AI驅動平臺中表現出色的原因之一。

您是否應該允許AI爬蟲訪問您的內容？

人工智慧爬蟲預設情況下已經可以讀取大多數 WordPress 網站。真正的問題是您希望它們訪問哪些內容——以及您如何控制這些內容的可見性。

內容驅動型企業目前正在熱烈討論這個問題。討論範圍涵蓋部落格文章、文件、著陸頁……實際上，任何為網路編寫的內容都包含在內。您可能已經聽過“為機器寫作”之類的建議，因為人工智慧平臺越來越多地抓取即時資料，在某些情況下，現在甚至會包含指向來源的連結。我們都希望自己的內容出現在大型語言模型的輸出中，就像我們希望出現在 Google 搜尋結果中一樣。

例如，在下面的截圖中， ChatGPT 可以聯網搜尋某一個品牌產品的一些最新功能。它會搜尋網路，掃描變更日誌和連結頁面，並提供包含指向來源的直接連結的摘要答案。

ChatGPT 透過聯網總結內容。

雖然目前還處於早期階段，但人工智慧爬蟲已經影響著人們線上提問時看到的內容。而這種影響力不容小覷。

Vercel 的執行長 Guillermo Rauch 在 4 月份分享說，ChatGPT 貢獻了 Vercel 近 10% 的新使用者註冊量，而六個月前這一比例還不到 1%。這表明人工智慧驅動的推薦可以多麼迅速地發展成為重要的獲客渠道。

Vercel 執行長分享的資料

Vercel 執行長分享的資料顯示了 ChatGPT 驅動的註冊量。

而且人工智慧爬蟲已經非常普遍。根據 Cloudflare 的資料，人工智慧機器人訪問了排名前一百萬的網站中的約 39%，但其中只有約 3% 的網站真正阻止或限制了這些流量。

因此，即使您還沒有做出決定，人工智慧爬蟲幾乎肯定已經在訪問您的網站了。

您應該允許還是阻止AI爬蟲？

沒有放之四海而皆準的答案。沒有通用的解決方案，但這裡有一個框架：

阻止爬蟲訪問敏感或低價值的路徑，例如 /login, /checkout, /admin 或儀表盤。這些路徑無助於內容發現，只會浪費頻寬。
允許爬蟲訪問“可發現內容”，例如部落格文章、文件、產品頁面和定價資訊。這些頁面最有可能被人工智慧回覆引用，並帶來高質量的流量。
對於付費內容或受限內容，需要進行戰略性決策。如果您的內容本身就是您的產品（例如新聞、研究報告、課程），那麼人工智慧的無限制訪問可能會損害您的業務。

目前正在出現一些新的工具來提供幫助。例如，Cloudflare 正在試驗一種名為“按抓取次數付費”（Pay Per Crawl）的模式，該模式允許網站所有者向人工智慧公司收取訪問費用。該模式目前仍處於內部測試階段，實際應用尚處於早期階段，但這一想法已獲得大型出版商的強烈支援，他們希望更好地控制其內容的使用方式。

搜尋和營銷領域的其他人士則更為謹慎，因為預設阻止可能會無意中降低那些希望獲得曝光的網站在人工智慧搜尋結果中的可見度。目前，這仍然是一個有前景的實驗，而不是一個成熟的收入來源。

在這些系統成熟之前，最實際的方法是選擇性開放，即允許抓取發現內容，阻止敏感區域的訪問，並隨著生態系統的發展重新評估您的規則。

如何在WordPress上控制AI爬蟲的訪問

如果您不希望人工智慧爬蟲訪問您的 WordPress 網站並掃描其內容，好訊息是您可以重新獲得控制權。

以下是管理 WordPress 上人工智慧爬蟲訪問的三種方法：

手動編輯您的 robots.txt 檔案。
使用外掛來完成此操作。
使用 Cloudflare 的機器人防護功能。

讓我們詳細介紹這三種方法。

方法 1：使用robots.txt手動阻止人工智慧爬蟲

您的 robots.txt 檔案會告訴機器人它們可以抓取您網站的哪些部分。大多數知名的人工智慧爬蟲，例如 OpenAI 的 GPTBot、Anthropic 的 Claude-Web 和 Google-Extended，都會遵守這些規則。

您可以完全阻止特定的機器人，允許它們完全訪問，或限制它們訪問您網站的某些部分。例如，要阻止所有內容，您可以將以下內容新增到您的 robots.txt 檔案中，儘管大多數網站不建議這樣做：

User-agent: GPTBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Google-Extended
Disallow: /

要完全允許 OpenAI 的 GPTBot：

User-agent: GPTBot
allow:

如果您只想阻止 OpenAI 的 GPTBot 抓取您網站的特定部分，例如您的登入頁面（抓取工具對該頁面沒有任何價值），可以這樣做：

User-agent: GPTBot
Disallow: /login/

這種選擇性阻止至關重要。像 /login, /checkout, 或 /admin 這樣的敏感路徑無助於提高網站的可發現性，因此幾乎總是應該被阻止。另一方面，產品頁面、功能概述或幫助中心等頁面則適合向搜尋引擎爬蟲開放，因為它們可以帶來引用和推薦流量。

您可以透過以下方式手動新增此 robots.txt 檔案：

使用我們的 Smart SEO Tool, Yoast 等 SEO 外掛（工具 > 檔案編輯器）。
使用 WP File Manager 等檔案管理器外掛。
或者透過 FTP 直接在伺服器上編輯 robots.txt 檔案。

方法 2：使用WordPress外掛

如果您不習慣直接編輯 robots.txt 檔案，或者只是想要一種更快、更安全的方式來管理 AI 爬蟲的訪問，那麼外掛可以幫助您輕鬆完成這項工作。

Raptive Ads

Raptive Ads WordPress 外掛內建了阻止 AI 爬蟲的功能：

您可以直接在外掛設定中切換要阻止的機器人。
大多數 AI 機器人（例如 GPTBot 和 Claude）預設情況下會被阻止。
Google-Extended 預設情況下不會被阻止，但如果您想選擇退出 Google 的 AI 訓練，可以勾選相應的覈取方塊。

使用此外掛的一個主要優勢是，阻止 Google-Extended 不會影響您的 Google 排名或在常規搜尋結果中的可見性。

Block AI Crawlers

Block AI Crawlers 外掛專為 WordPress 網站所有者設計，旨在讓他們更好地控制 AI 爬蟲如何與網站內容互動。具體如下：

透過自動將正確的 Disallow 規則新增到您網站的 robots.txt 檔案中，阻止 75 種以上的已知 AI 機器人。
無需任何配置。安裝外掛，轉到“設定”>“閱讀”，然後勾選“Block AI Crawlers”覈取方塊。
輕量級且開源，並定期從 GitHub 獲取更新。
設計用於在大多數 WordPress 安裝中開箱即用。

Block AI Crawlers 外掛是阻止不需要的 AI 機器人訪問您網站的最簡單方法之一，尤其是在您沒有使用高階 SEO 外掛的情況下。

注：如果您的 WordPress 網站使用物理 robots.txt 檔案（而不是 WordPress 生成的虛擬檔案），則這些外掛將無法自動進行更改。在這種情況下，您需要手動新增條目。

選項 3：使用Cloudflare的一鍵式AI機器人阻止程式

如果您的 WordPress 網站使用 Cloudflare（許多網站都使用），您只需單擊一下即可阻止數十種已知和未知的 AI 機器人。

2024 年年中，Cloudflare 推出了專門的 AI 爬蟲和抓取工具防護功能，即使是免費套餐使用者也能使用。這項功能不僅依賴於 robots.txt 檔案，還能在網路層面阻止機器人程式，甚至包括那些偽裝身份的機器人。

您可以按照以下步驟啟用此功能：

登入您的 Cloudflare 控制面板
前往 Security > Settings
在 Filter by 部分，選擇“Bot traffic”。
找到 Bot fight mode 並將其開啟。

“Bot Fight Mode”選項

Cloudflare 控制面板顯示“Bot Fight Mode”選項。

如果您使用的是 Cloudflare 付費套餐，則可以訪問“超級機器人防護模式”，這是“機器人防護模式”的增強版本，功能更加靈活。它基於相同的技術構建，但允許您選擇如何處理不同的流量型別，並啟用 JavaScript 檢測來捕獲無頭瀏覽器、隱秘爬蟲和其他惡意流量。

例如，您可以配置該工具，使其僅阻止“確定是自動化流量”的請求，並允許“已驗證的機器人”，例如搜尋引擎爬蟲，而不是阻止所有爬蟲：

Cloudflare 的超級機器人防護模式

Cloudflare 的超級機器人防護模式。

就是這樣。Cloudflare 會自動阻止來自 AI 機器人的請求。

如果您想深入瞭解這些工具（包括機器人防護模式、超級機器人防護模式和目標挑戰規則）如何協同工作，您可以閱讀我們關於如何使用Cloudflare為WordPress網站攔截惡意機器人流量的教程文章。

這種轉變對您的WordPress網站意味著什麼

AI 爬蟲現在已成為人們線上發現資訊的方式之一。這項技術是新的，規則仍在制定中，網站所有者正在決定他們希望公開多少內容。

好訊息是，WordPress 網站已經處於有利地位。由於 WordPress 輸出的是完全渲染的 HTML，大多數 AI 爬蟲無需特殊處理即可清晰地解析您的內容。真正的戰略決策不是 AI 爬蟲是否可以訪問您的網站，而是多少訪問量有助於實現您的目標。

隨著流量型別的變化，擁有易於理解和管理的資源使用情況的託管選項非常重要。結合 Cloudflare 的機器人防護功能和您自己的爬蟲規則，您可以完全控制網站的訪問方式。阿里雲也有類似的功能，但費用相對會高一些，有興趣的站長朋友可以瞭解下阿里雲的 ESA。

AI爬蟲 Cloudflare 爬蟲攔截

AI爬蟲詳解：AI機器人如何與您的WordPress網站互動

文章目录

什麼是AI爬蟲？

AI爬蟲的工作原理

AI爬蟲如何與WordPress網站互動

您是否應該允許AI爬蟲訪問您的內容？

您應該允許還是阻止AI爬蟲？

如何在WordPress上控制AI爬蟲的訪問

方法 1：使用robots.txt手動阻止人工智慧爬蟲

方法 2：使用WordPress外掛

Raptive Ads

Block AI Crawlers

選項 3：使用Cloudflare的一鍵式AI機器人阻止程式

這種轉變對您的WordPress網站意味著什麼

評論留言

取消回覆

AI爬蟲詳解：AI機器人如何與您的WordPress網站互動

文章目录

什麼是AI爬蟲？

AI爬蟲的工作原理

AI爬蟲如何與WordPress網站互動

您是否應該允許AI爬蟲訪問您的內容？

您應該允許還是阻止AI爬蟲？

如何在WordPress上控制AI爬蟲的訪問

方法 1：使用robots.txt手動阻止人工智慧爬蟲

方法 2：使用WordPress外掛

Raptive Ads

Block AI Crawlers

選項 3：使用Cloudflare的一鍵式AI機器人阻止程式

這種轉變對您的WordPress網站意味著什麼

相關文章

評論留言

取消回覆