
如何做搜尋引擎蜘蛛日誌分析
搜尋引擎蜘蛛日誌檔案是一種非常強大但未被站長充分利用的檔案,分析它可以獲取有關每個搜尋引擎如何爬取網站內容的相關資訊點,及檢視搜尋引擎蜘蛛在一段時間內的行為。
IP地址(18) | 伺服器名稱 | 所屬國家 |
---|---|---|
172.13.139.9 | 172-13-139-9.lightspeed.ltrkar.sbcglobal.net | US |
45.76.90.76 | 45.76.90.76.vultrusercontent.com | DE |
2600:1700:8590:31d0::41 | 2600:1700:8590:31d0::41 | US |
149.248.34.181 | 149.248.34.181.vultrusercontent.com | US |
79.172.74.42 | 79-172-74-42.dyn.broadband.iskratelecom.ru | RU |
83.171.237.212 | 83.171.237.212.static.as201206.net | DE |
185.170.210.67 | 185.170.210.67 | HK |
91.134.249.209 | ip209.ip-91-134-249.eu | FR |
185.225.19.18 | no-rdns.mivocloud.com | RO |
IP地址(5) | 伺服器名稱 | 所屬國家 |
---|---|---|
95.216.218.51 | static.51.218.216.95.clients.your-server.de | FI |
168.235.110.117 | 168-235-110-117.cloud.ramnode.com | US |
51.15.229.239 | 239-229-15-51.instances.scw.cloud | FR |
212.59.169.179 | sc179-169.static.hosting-ch.ch | CH |
46.232.251.101 | v22018116653376520.quicksrv.de | DE |
可以考慮攔截。。爬蟲通常會下載公開的網際網路內容,這些內容預設情況下可以免費訪問。不過,如果你不希望你的內容被用於未經授權的目的,你應該攔截它們。
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 dcrawl 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: dcrawl Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。