
如何做搜尋引擎蜘蛛日誌分析
搜尋引擎蜘蛛日誌檔案是一種非常強大但未被站長充分利用的檔案,分析它可以獲取有關每個搜尋引擎如何爬取網站內容的相關資訊點,及檢視搜尋引擎蜘蛛在一段時間內的行為。
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。
Neevabot是搜尋引擎neeva.com的網路爬蟲。
來自Neevabot的請求將使用者代理設定為:
Mozilla/5.0 (compatible; Neevabot/1.0; +https://neeva.com/neevabot)
並源自反向DNS顯示其在*.neevabot.com域的IP。例如。
$ host 100.26.127.17 17.127.26.100.in-addr.arpa domain name pointer 100-26-127-17.neevabot.com
robots.txt中針對Neevabot的標準指令會被尊重。例如,以下內容將允許Neevabot抓取所有頁面,除了/private/下的頁面。
User-Agent: Neevabot Allow: / Disallow: /private/
Neevabot 還支援 robots.txt 檔案中的爬行延遲指令。它將該值解釋為連續請求開始之間的最小持續時間,單位為秒。例如,假設你在 robots.txt 檔案中指定了以下內容。
User-Agent: Neevabot Crawl-delay: 5
Neevabot會將每天分成5秒的時間間隔,並在每個時間間隔內最多向你的域名發出一個請求。
如果沒有針對Neevabot的規則,但有針對Googlebot的規則,那麼Neevabot將遵循Googlebot的指令。例如,Neevabot將獲取所有的頁面,除了那些在/private/下的頁面,以及以下robots.txt。
User-Agent: * Disallow: / User-Agent: Googlebot Allow: / Disallow: /private/
如果你有任何問題,或者你認為Neevabot在你的網站上行為不端,請不要猶豫,與Neevabot聯絡,neevabot@neeva.co。