爬蟲流量氾濫:一文搞懂識別、過濾與攔截惡意爬蟲

爬蟲流量氾濫:一文搞懂識別、過濾與攔截惡意爬蟲

每一個人類訪問網站,就有 3 個機器人訪問。

驚訝嗎?我們也一樣。

但根據我們的內部資料,自 2025 年 1 月以來,機器人流量平均佔 71.5%。

來自 ChatGPT(9.16%)、Claude(6.09%)和其他 LLM 的人工智慧爬蟲經常出現在我們的機器人流量資料中,而像 Googlebot 這樣的搜尋引擎機器人僅佔流量的 7.57%。

我們不能完全遮蔽它們,因為大多數機器人都是必要的。例如,Googlebot 可以幫助您的網站出現在搜尋結果中,或者 ChatGPT 機器人會在回覆中引用您的品牌作為來源。

但是,如果您發現聯絡表單中的流量激增或出現垃圾留言條目,就需要採取行動了。

機器人流量激增究竟有多嚴重?

以下是閃電博網站近七天機器人流量明細:

閃電博網站近七天機器人流量

上述資料是透過 Spider Analyser 外掛統計,就統計的資料來看,惡意機器人好像佔比尚好。不過營銷機器人的爬取似乎有點過分,要不要採取進一步動作呢?

我們的發現與 Imperva 的《2025 年惡意機器人報告》非常一致,該報告指出,目前 51% 的網際網路流量來自自動化來源,其中 37% 被歸類為惡意機器人。

挑戰在於灰色地帶。

一些 AI 訓練爬蟲(例如 GPTBot)會收集您的內容來訓練語言模型,而不會直接為您的網站帶來流量收益。

但這些爬蟲究竟是“好”還是“壞”,取決於您對 AI 公司將您的內容用於商業目的的看法。

好機器人與壞機器人:有何區別

好機器人與壞機器人:有何區別

並非所有自動流量都值得遮蔽。在採取任何措施管理網站上的機器人程式之前,您需要了解哪些機器人程式對您的業務有益,哪些機器人程式會損害您的業務。

有益於您網站的良性機器人

  • 搜尋引擎爬蟲例如,Googlebot 和 Bingbot 會將您的內容編入索引以用於搜尋結果。
  • 社交媒體機器人:例如 FacebookExternalAgent,會在使用者分享您的內容時生成連結預覽。
  • 監控服務這些服務會檢查您網站的正常執行時間和效能。
  • AI搜尋爬蟲:例如 ChatGPT-User 和 Perplexity-User,會在回答使用者查詢時引用您的內容。

消耗您資源的惡意機器人

  • 內容抓取器:這些機器人程式會竊取您的文章、產品描述和圖片。
  • 表單垃圾郵件機器人程式:它們會用垃圾提交內容淹沒聯絡表單。
  • 價格監控機器人程式:來自跟蹤您定價策略的競爭對手。
  • 庫存囤積機器人程式:這些機器人程式會在您未購買的情況下將商品新增到購物車。
  • 憑證填充機器人:它們試圖侵入使用者帳戶。

影響小型企業網站的隱性成本

無論機器人型別如何,自動流量都會在三個關鍵方面影響您的網站:

  • 託管費用
  • 安全風險
  • 資料準確性

每次機器人訪問都會像人類訪問者一樣消耗伺服器資源,但卻無法帶來轉化、參與或收入。

1. 您的基礎設施成本持續攀升

每個機器人請求都會佔用您的頻寬、處理能力和儲存空間。

如果您的網站或電商平臺內容繁多,您可能會很快發現這些成本會對您的錢包造成衝擊。

“Read the Docs”專案在遮蔽人工智慧爬蟲後,流量減少了 75%,每天的服務量從 800GB 減少到 200GB,每月節省了 1,500 美元的頻寬成本。

如果您使用的是共享主機方案,則不會產生直接成本。

然而,過多的機器人流量可能會導致您的主機商限制網站效能。更激進的機器人活動可能會迫使您比計劃更早地需要 VPS 或專用主機解決方案。

2. 安全和垃圾評論問題愈演愈烈

惡意機器人會瞄準您的聯絡表單、登入頁面和結賬流程。

它們會尋找漏洞,嘗試憑證填充攻擊,還會向表單中傳送大量垃圾資訊。由於大多數網站只具備基本的安全保障,它們成為了極具吸引力的目標。

如果您的聯絡表單或部落格評論中包含垃圾資訊,我建議您立即安裝 Askimet,這樣垃圾資訊就會減少。但請記住,Askimet 不會阻止機器人流量。

您需要自行採取措施阻止機器人(稍後會詳細介紹)。

3. 您的分析資料受到汙染

機器人流量會擾亂您的網站分析。

當機器人訪問頁面時,它們不會與內容互動,從而導致人為地產生高流量,但轉化率卻為零。

這種汙染幾乎使您無法衡量真實的使用者行為、最佳化轉化渠道或做出資料驅動的營銷決策。

即使 Google Analytics(分析)允許您過濾流量以縮小分析範圍,也很難區分機器人流量和普通人類訪問者。

如何查詢您網站上的機器人流量

目前還沒有萬無一失的方法來查詢所有機器人流量,因為高階機器人幾乎與人類訪問者難以區分。

但您可以採取一些步驟來開始監控。

1. 從伺服器管理面板的流量儀表盤開始

部分伺服器提供商提供流量監控支援,可讓您清晰地檢視流量活動,包括機器人行為。您可以監控峰值、檢測異常情況,並跟蹤有多少機器人可能正在影響您的網站,所有這些都無需第三方工具。

  • 一目瞭然地區分真人流量和機器人流量
  • 按 IP、引薦來源或使用者代理檢視流量
  • 及早發現模式,以便您快速採取行動

流量儀表盤

這對於喜歡內建工具而非複雜儀表盤的使用者尤其有用。額外福利——無需額外配置!

2. 使用Google Analytics深入分析

檢視您的 Google Analytics 儀表盤,尋找以下機器人活動頻繁的跡象:

  • 流量激增,跳出率相應上升
  • 頁面瀏覽量高,但頁面停留時間為零
  • 異常的地理流量模式(來自您未運營國家/地區的流量突然增加)
  • 來自陌生域名的引薦來源垃圾流量

前往“報告”→“技術”,並使用 GA4 的技術過濾功能縮小到使用者技術。

Google Analytics

在這裡,您可以按瀏覽器和作業系統、螢幕解析度、裝置、應用版本等進行篩選。您需要查詢的是一些不常見的瀏覽器、不常見的作業系統和不常見的螢幕解析度,例如:

  • 1024 x 768
  • 1366 x 768
  • 1600 x 864
  • 800 x 600
  • 1600 x 1200
  • 1024 x 667
  • Not Specified

這會從您的追蹤中剔除一些真正的訪客,但您也會在分析資料中看到更少的機器人條目。

注:高階機器人可以使用普通解析度和最新的裝置版本來偽裝其活動。除非您在訪客訪問您的網站之前就開始篩選,否則很難將這些機器人篩選出來進行分析。

3. 檢查伺服器日誌

如果您可以訪問主機控制面板,請檢視伺服器訪問日誌,查詢表明存在自動流量的模式:

  • 來自單個 IP 地址的快速請求。
  • 向不存在的頁面發出的請求(通常是探測漏洞的機器人程式)。
  • 被識別為已知爬蟲(包括良性和惡意爬蟲)的使用者代理。
  • 不含引薦來源資訊的請求。

許多主機提供商在其控制面板中提供日誌分析工具。查詢與營銷活動或內容更新無關的頻寬使用量異常峰值。

一旦您獲得了疑似重複違規的 IP 地址列表,就可以開始從您的網路伺服器(例如 NGINX 或 Apache)或 CDN 阻止這些 IP 地址。

4. 使用第三方監控工具

有時,您只能識別有限的流量。因此,市面上有免費的第三方工具,例如 Cloudflare Analytics(如果您使用其服務),可以提供機器人流量細分。

還有其他一些綜合性應用,例如:

  • Wordfence:適用於 WordPress 網站;識別惡意機器人攻擊
  • Sucuri:提供帶有機器人檢測功能的網站防火牆服務
  • MonsterInsights:提供增強型 Google Analytics 報告,並帶有機器人過濾功能

管理和攔截惡意爬蟲,避免誤傷良性爬蟲

我建議緩慢地攔截爬蟲流量,因為您可能會意外地攔截真實使用者。此外,您還需要採取一種平衡的策略,在攔截有害的自動流量的同時,保留有益的爬蟲程式。

以下是我在不意外攔截搜尋引擎或合法服務的情況下實施爬蟲管理的方法。

設定您的robots.txt檔案

您的 robots.txt 檔案是抵禦惡意爬蟲程式的第一道防線。

在您網站的根目錄中建立或更新該檔案,並針對不同型別的機器人提供具體的說明:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# Block AI training crawlers
User-agent: GPTBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
# Allow search engines
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Allow AI search bots that cite sources
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
# Block AI training crawlers User-agent: GPTBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Google-Extended Disallow: / # Allow search engines User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / # Allow AI search bots that cite sources User-agent: ChatGPT-User Allow: / User-agent: PerplexityBot Allow: /
# Block AI training crawlers
User-agent: GPTBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
# Allow search engines
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Allow AI search bots that cite sources
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /

如果您無法直接訪問 robots.txt 檔案並使用 WordPress,可以嘗試使用 WP Robots Txt 外掛,該外掛可讓您從 WordPress 資訊中心編輯該檔案。

注:當然 Smart SEO Tool 這個專業 SEO 外掛內部就提供 robots.txt 檔案編輯器。沒必要為了一點點小事情,安裝一個功能單一的外掛。

請記住,robots.txt 的執行遵循誠信系統。行為良好的爬蟲程式會遵守這些指令,但惡意機器人通常會完全忽略該檔案。

實施網站防火牆

為了更積極的網站安全,可以實施 Web 應用防火牆 (WAF),它可以在伺服器級別阻止機器人程式。

作為管理低流量網站的小型企業主,您還有其他一些選擇。

Cloudflare 免費套餐

  • 提供基本的機器人程式防禦功能
  • 自動阻止明顯的惡意流量
  • 提供針對特定威脅的可自定義防火牆規則

Wordfence(WordPress 使用者)

  • 包含機器人程式檢測和阻止功能
  • 即時威脅情報更新
  • 可自定義的速率限制,以防止快速請求

伺服器級速率限制

許多託管服務提供商都提供速率限制功能,可以自動減慢或阻止在短時間內發出過多請求的 IP 地址。您可以配置這些速率限制器,以阻止在短時間內瀏覽過多頁面的 IP 地址。

例如,正常人需要幾秒鐘瀏覽頁面才能點選不同的連結。而機器人只需幾毫秒即可完成相同的操作。

WordPress網站的外掛解決方案

如果您正在執行 WordPress,則有更多機器人管理選項:

  • Spider Analyser蜘蛛爬蟲行為監測和洞悉,快速攔截不良機器人。
  • Akismet使用先進的人工智慧過濾技術,自動過濾垃圾評論和表單,準確率高達 99.99%。對於任何接受使用者提交內容的 WordPress 網站來說,這都是必備工具。
    WP Cerber Security提供全面的機器人防護,包括登入嘗試限制、IP 地址攔截和先進的機器人檢測演算法。
    All-In-One Security (AIOS):提供適用於小型企業網站的防火牆功能和機器人攔截功能。

完整的機器人防護實施路徑

爬蟲流量氾濫:一文搞懂識別、過濾與攔截惡意爬蟲配圖5

我已將此實施計劃拆分,以便能夠在緊湊的時間表內完成,並幫助您在短時間內從零防護過渡到有效的機器人防禦。

20分鐘:快速見效

  • 更新 robots.txt 檔案
  • 啟用基本安全外掛
  • 檢查 Google Analytics(分析)中的機器人攻擊模式

從 robots.txt 檔案開始,因為這是最簡單的第一步。登入您網站的檔案管理器(或使用 FTP),然後在根目錄中建立或更新 robots.txt 檔案。複製本文前面提到的 robots.txt 配置並貼上到檔案中。

如果您正在執行 WordPress,請立即安裝並啟用 Wordfence 安全外掛。免費版本包含基本的機器人防護功能,並將立即開始阻止明顯的惡意流量。

開啟 Google Analytics(分析)檢查您的流量來源是否存在異常模式。查詢您未提供服務的國家/地區、流量突然激增或會話時長為零的高跳出率。

24小時:多層防禦

  • 設定免費 Cloudflare 帳戶
  • 配置速率限制
  • 在表單中新增驗證碼
  • 啟用評論稽覈

註冊免費 Cloudflare 帳戶並新增您的網站。Cloudflare 位於您的網站和訪問者之間,會在明顯的機器人流量到達您的伺服器之前自動阻止它們。設定大約需要 30 分鐘,包括更改 DNS 設定,但 Cloudflare 會引導您完成每個步驟。

透過您的主機設定速率限制,自動減慢或阻止發出過多請求的 IP 地址。配置限制,允許正常瀏覽(每頁幾秒鐘),但阻止惡意爬蟲(每秒多個頁面)。

使用 WordPress 的 reCAPTCHA 外掛或 Cloudflare Turnstile 為易受攻擊的表單新增驗證碼。在聯絡表單、評論區和使用者註冊頁面新增隱形驗證碼,以阻止自動提交,而不會打擾真實使用者。

一週:監控和最佳化

  • 分析伺服器日誌
  • 微調防火牆規則
  • 設定監控警報
  • 遮蔽問題 IP 範圍

分析伺服器訪問日誌,識別特定於您網站的機器人程式模式。查詢來自單個 IP 地址的快速請求、對不存在頁面的請求以及可疑的使用者代理字串。大多數主機控制面板都包含日誌分析工具,可以簡化此操作。

使用這些資料在 Cloudflare 或您的安全外掛中建立自定義防火牆規則。例如,如果您發現來自特定國家/地區的機器人程式持續引發問題,您可以遮蔽整個地理區域。或者,如果某些使用者代理程式持續頻繁訪問您的網站,請遮蔽這些特定的字串。

設定監控警報,以便您瞭解機器人程式流量高峰的發生時間。UptimeRobotPingdom 等工具可以提醒您異常的流量模式、載入時間過長或伺服器資源峰值,這些都可能表明存在機器人程式攻擊。

一個月:高階防護

  • 實施行為分析
  • 部署 API 速率限制
  • 設定 CDN 快取
  • 建立機器人蜜罐

新增行為分析工具,例如 DataDome 或 Imperva,透過分析滑鼠移動、輸入模式和頁面互動時間來檢測機器人。這些工具可以捕獲模仿人類行為的複雜機器人。

使用 CDN 積極快取靜態資源。這樣,機器人流量會訪問快取,而不是主機,從而減少重複請求的負載。

我最喜歡的技巧之一是建立機器人蜜罐。如果您發現大量表單垃圾郵件,請在表單中新增一個額外的隱藏欄位。由於機器人在填寫表單時會檢視頁面 HTML,它們會看到這個隱藏欄位並向其中新增一些資料。您可以安全地刪除所有包含隱藏欄位文字的表單條目,因為人類訪問者無法看到它。

小結

爬蟲流量不會消失。我們網路訪問量中有 71.5% 來自自動化來源,如今網際網路上爬蟲的數量是人類的三倍。

然而,儘管大多數網站所有者仍在摸索究竟發生了什麼,但您已經擁有了扭轉爬蟲混亂局面所需的一切,從而為您的業務帶來積極影響,甚至從這些良性爬蟲中獲益。

所以,趁您的競爭對手還在為虛假流量而擔憂的時候,趕緊開始實施爬蟲管理系統吧!

評論留言