Neevabot

訪問控制

瞭解如何控制訪問許可權，避免抓取行為不當。

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛，以檢查它是否真正遵循這些規則。

# robots.txt

# 下列程式碼一般情況可以攔截該代理

User-agent:

Disallow: /

# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: Disallow: /

# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: 
Disallow: /

您無需手動執行此操作，可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

Neevabot是搜尋引擎neeva.com的網路爬蟲。

來自Neevabot的請求將使用者代理設定為：

Mozilla/5.0 (compatible; Neevabot/1.0; +https://neeva.com/neevabot)

Mozilla/5.0 (compatible; Neevabot/1.0; +https://neeva.com/neevabot)

並源自反向DNS顯示其在*.neevabot.com域的IP。例如。

$ host 100.26.127.17

17.127.26.100.in-addr.arpa domain name pointer 100-26-127-17.neevabot.com

$ host 100.26.127.17 17.127.26.100.in-addr.arpa domain name pointer 100-26-127-17.neevabot.com

$ host 100.26.127.17
17.127.26.100.in-addr.arpa domain name pointer 100-26-127-17.neevabot.com

robots.txt中針對Neevabot的標準指令會被尊重。例如，以下內容將允許Neevabot抓取所有頁面，除了/private/下的頁面。

User-Agent: Neevabot

Allow: /

Disallow: /private/

User-Agent: Neevabot Allow: / Disallow: /private/

User-Agent: Neevabot
Allow: /
Disallow: /private/

Neevabot 還支援 robots.txt 檔案中的爬行延遲指令。它將該值解釋為連續請求開始之間的最小持續時間，單位為秒。例如，假設你在 robots.txt 檔案中指定了以下內容。

User-Agent: Neevabot

Crawl-delay: 5

User-Agent: Neevabot Crawl-delay: 5

User-Agent: Neevabot
Crawl-delay: 5

Neevabot會將每天分成5秒的時間間隔，並在每個時間間隔內最多向你的域名發出一個請求。

如果沒有針對Neevabot的規則，但有針對Googlebot的規則，那麼Neevabot將遵循Googlebot的指令。例如，Neevabot將獲取所有的頁面，除了那些在/private/下的頁面，以及以下robots.txt。

User-Agent: *

Disallow: /

User-Agent: Googlebot

Allow: /

Disallow: /private/

User-Agent: * Disallow: / User-Agent: Googlebot Allow: / Disallow: /private/

User-Agent: *
Disallow: /
User-Agent: Googlebot
Allow: /
Disallow: /private/

如果你有任何問題，或者你認為Neevabot在你的網站上行為不端，請不要猶豫，與Neevabot聯絡，neevabot@neeva.co。

基本資訊