有關的爬蟲/蜘蛛資訊非常少。閱讀下方詳細資訊內容,以便於對該蜘蛛爬蟲利弊做判斷。

基本資訊

的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
開發商
當前狀態
無效

使用者代理

關於蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:

訪問控制

瞭解如何控制訪問許可權,避免抓取行為不當。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent:
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: 
Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

Neevabot是搜尋引擎neeva.com的網路爬蟲。

來自Neevabot的請求將使用者代理設定為:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
Mozilla/5.0 (compatible; Neevabot/1.0; +https://neeva.com/neevabot)
Mozilla/5.0 (compatible; Neevabot/1.0; +https://neeva.com/neevabot)
Mozilla/5.0 (compatible; Neevabot/1.0; +https://neeva.com/neevabot)

並源自反向DNS顯示其在*.neevabot.com域的IP。例如。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
$ host 100.26.127.17
17.127.26.100.in-addr.arpa domain name pointer 100-26-127-17.neevabot.com
$ host 100.26.127.17 17.127.26.100.in-addr.arpa domain name pointer 100-26-127-17.neevabot.com
$ host 100.26.127.17
17.127.26.100.in-addr.arpa domain name pointer 100-26-127-17.neevabot.com

robots.txt中針對Neevabot的標準指令會被尊重。例如,以下內容將允許Neevabot抓取所有頁面,除了/private/下的頁面。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
User-Agent: Neevabot
Allow: /
Disallow: /private/
User-Agent: Neevabot Allow: / Disallow: /private/
User-Agent: Neevabot
Allow: /
Disallow: /private/

Neevabot 還支援 robots.txt 檔案中的爬行延遲指令。它將該值解釋為連續請求開始之間的最小持續時間,單位為秒。例如,假設你在 robots.txt 檔案中指定了以下內容。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
User-Agent: Neevabot
Crawl-delay: 5
User-Agent: Neevabot Crawl-delay: 5
User-Agent: Neevabot
Crawl-delay: 5

Neevabot會將每天分成5秒的時間間隔,並在每個時間間隔內最多向你的域名發出一個請求。

如果沒有針對Neevabot的規則,但有針對Googlebot的規則,那麼Neevabot將遵循Googlebot的指令。例如,Neevabot將獲取所有的頁面,除了那些在/private/下的頁面,以及以下robots.txt。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
User-Agent: *
Disallow: /
User-Agent: Googlebot
Allow: /
Disallow: /private/
User-Agent: * Disallow: / User-Agent: Googlebot Allow: / Disallow: /private/
User-Agent: *
Disallow: /
User-Agent: Googlebot
Allow: /
Disallow: /private/

如果你有任何問題,或者你認為Neevabot在你的網站上行為不端,請不要猶豫,與Neevabot聯絡,neevabot@neeva.co

常見蜘蛛/爬蟲

Common Spiders
Crawler-IP-Fetcher
Crawler-IP-Fetcher蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解Crawler-IP-Fetcher基本資訊,使用者代理和訪問控制等。
OpenRobotsTxt Crawler
OpenRobotsTxt Crawler蜘蛛/爬蟲屬於工具型別,由Majestic-12 Ltd開發執行。您可以繼續閱讀下方資訊,以深入瞭解OpenRobotsTxt Crawler基本資訊,使用者代理和訪問控制等。
RAPEF crawler
RAPEF crawler蜘蛛/爬蟲屬於工具型別,由RAPEF.INFO開發執行。您可以繼續閱讀下方資訊,以深入瞭解RAPEF crawler基本資訊,使用者代理和訪問控制等。
DARPResearchBot
DARPResearchBot蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解DARPResearchBot基本資訊,使用者代理和訪問控制等。
Google-NotebookLM
Google-NotebookLM蜘蛛/爬蟲屬於工具型別,由Google Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Google-NotebookLM基本資訊,使用者代理和訪問控制等。
MistralAI crawler
MistralAI crawler蜘蛛/爬蟲屬於AI助手型別,由Mistral AI開發執行。您可以繼續閱讀下方資訊,以深入瞭解MistralAI crawler基本資訊,使用者代理和訪問控制等。
xfa1
xfa1蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解xfa1基本資訊,使用者代理和訪問控制等。
Fraunhofer crawler
Fraunhofer crawler蜘蛛/爬蟲屬於其他型別,由Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Fraunhofer crawler基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles