
如何做搜尋引擎蜘蛛日誌分析
搜尋引擎蜘蛛日誌檔案是一種非常強大但未被站長充分利用的檔案,分析它可以獲取有關每個搜尋引擎如何爬取網站內容的相關資訊點,及檢視搜尋引擎蜘蛛在一段時間內的行為。
IP地址(4) | 伺服器名稱 | 所屬國家 |
---|---|---|
167.99.175.91 | vps3.bad-neighborhood.com | US |
149.56.103.186 | vps2.bad-neighborhood.com | CA |
192.99.244.158 | ns1.bad-neighborhood.com | CA |
70.86.7.26 | www.bad-neighborhood.com | US |
IP地址(4) | 伺服器名稱 | 所屬國家 |
---|---|---|
167.99.175.91 | vps3.bad-neighborhood.com | US |
149.56.103.186 | vps2.bad-neighborhood.com | CA |
192.99.244.158 | ns1.bad-neighborhood.com | CA |
70.86.7.26 | www.bad-neighborhood.com | US |
可能不需要。工具型別爬蟲通常為網站所有者使用此類工具對網站進行相關服務請求才會出現。當然,實際情況需站長判斷後再作決定。
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 Bad-Neighborhood 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: Bad-Neighborhood Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。
header detector這個工具通過爬蟲Bad-Neighborhood將幫助你檢測一個特定的URL所產生的確切標題。在搜尋引擎優化中,這對於使用 “跳轉 “URL或重定向cgi來跟蹤點選列表的人數的目錄列表來說可能特別重要。很多時候,這些程式會產生一個302 Found頭的響應,用來表示一個臨時重定向。眾所周知,這在過去會給某些搜尋引擎帶來問題,並可能導致 “頁面劫持”。如果有問題的指令碼返回一個正確的301永久移動響應,這個問題就不會發生。
常見的返回程式碼:
這是最常見的返回狀態程式碼的列表。關於詳細的列表和進一步的解釋,請訪問W3.org HTTP/1.1: Status Code Definitions
300’s重定向
400’s客戶端錯誤
500’s伺服器錯誤