
如何做搜尋引擎蜘蛛日誌分析
搜尋引擎蜘蛛日誌檔案是一種非常強大但未被站長充分利用的檔案,分析它可以獲取有關每個搜尋引擎如何爬取網站內容的相關資訊點,及檢視搜尋引擎蜘蛛在一段時間內的行為。
IP地址(1) | 伺服器名稱 | 所屬國家 |
---|---|---|
74.80.190.15 | davenport.medicineuptotheminute.com | US |
IP地址(1) | 伺服器名稱 | 所屬國家 |
---|---|---|
180.184.68.243 | 180.184.68.243 | CN |
180.184.46.37 | 180.184.46.37 | CN |
180.184.46.38 | 180.184.46.38 | CN |
213.244.248.49 | 213.244.248.49 | RO |
20.94.199.93 | 20.94.199.93 | US |
213.244.248.43 | 213.244.248.43 | RO |
213.244.248.48 | 213.244.248.48 | RO |
213.244.248.47 | 213.244.248.47 | RO |
147.185.40.159 | 147.185.40.159 | US |
3.129.67.141 | ec2-3-129-67-141.us-east-2.compute.amazonaws.com | US |
3.147.57.121 | ec2-3-147-57-121.us-east-2.compute.amazonaws.com | US |
3.146.34.205 | ec2-3-146-34-205.us-east-2.compute.amazonaws.com | US |
18.117.106.195 | ec2-18-117-106-195.us-east-2.compute.amazonaws.com | US |
3.147.49.143 | ec2-3-147-49-143.us-east-2.compute.amazonaws.com | US |
130.83.94.94 | lab11.visinf.informatik.tu-darmstadt.de | DE |
130.83.94.102 | lab05.visinf.informatik.tu-darmstadt.de | DE |
130.83.192.132 | node17.visinf.informatik.tu-darmstadt.de | DE |
130.83.90.242 | vidgx01.visinf.informatik.tu-darmstadt.de | DE |
130.83.90.248 | node15.visinf.informatik.tu-darmstadt.de | DE |
130.83.94.32 | node12.visinf.informatik.tu-darmstadt.de | DE |
130.83.90.250 | node16.visinf.informatik.tu-darmstadt.de | DE |
130.83.94.107 | lab20.visinf.informatik.tu-darmstadt.de | DE |
IP地址(1) | 伺服器名稱 | 所屬國家 |
---|---|---|
35.188.72.43 | 43.72.188.35.bc.googleusercontent.com | US |
可以考慮攔截。。爬蟲通常會下載公開的網際網路內容,這些內容預設情況下可以免費訪問。不過,如果你不希望你的內容被用於未經授權的目的,你應該攔截它們。
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 img2dataset 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: img2dataset Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。