
如何做搜尋引擎蜘蛛日誌分析
搜尋引擎蜘蛛日誌檔案是一種非常強大但未被站長充分利用的檔案,分析它可以獲取有關每個搜尋引擎如何爬取網站內容的相關資訊點,及檢視搜尋引擎蜘蛛在一段時間內的行為。
IP地址(570) | 伺服器名稱 | 所屬國家 |
---|---|---|
52.87.252.80 | ec2-52-87-252-80.compute-1.amazonaws.com | US |
93.103.137.65 | 93-103-137-65.dynamic.t-2.net | SI |
89.212.20.214 | 89-212-20-214.dynamic.t-2.net | SI |
93.103.154.48 | 93-103-154-48.dynamic.t-2.net | SI |
195.78.123.5 | ip005-123.netbone.cz | CZ |
64.62.252.163 | ? | US |
64.62.252.164 | ? | US |
64.62.252.162 | ? | US |
147.229.8.39 | athena2.fit.vutbr.cz | CZ |
64.62.252.169 | ? | US |
IP地址(8) | 伺服器名稱 | 所屬國家 |
---|---|---|
52.201.172.119 | ec2-52-201-172-119.compute-1.amazonaws.com | US |
34.202.159.35 | ec2-34-202-159-35.compute-1.amazonaws.com | US |
52.23.213.46 | ec2-52-23-213-46.compute-1.amazonaws.com | US |
54.174.39.248 | ec2-54-174-39-248.compute-1.amazonaws.com | US |
35.153.193.122 | ec2-35-153-193-122.compute-1.amazonaws.com | US |
54.208.249.249 | ec2-54-208-249-249.compute-1.amazonaws.com | US |
34.207.57.181 | ec2-34-207-57-181.compute-1.amazonaws.com | US |
34.232.76.186 | ec2-34-232-76-186.compute-1.amazonaws.com | US |
IP地址(680) | 伺服器名稱 | 所屬國家 |
---|---|---|
147.229.8.59 | knot38.fit.vutbr.cz | CZ |
147.229.8.170 | knot36.fit.vutbr.cz | CZ |
147.229.8.167 | knot37.fit.vutbr.cz | CZ |
147.229.8.39 | athena2.fit.vutbr.cz | CZ |
147.229.8.130 | knot30.fit.vutbr.cz | CZ |
147.229.8.140 | knot35.fit.vutbr.cz | CZ |
147.229.8.136 | knot33.fit.vutbr.cz | CZ |
147.229.8.224 | knot04.fit.vutbr.cz | CZ |
147.229.8.105 | athena5.fit.vutbr.cz | CZ |
147.229.8.135 | athena9.fit.vutbr.cz | CZ |
52.87.252.80 | ec2-52-87-252-80.compute-1.amazonaws.com | US |
93.103.137.65 | 93-103-137-65.dynamic.t-2.net | SI |
89.212.20.214 | 89-212-20-214.dynamic.t-2.net | SI |
93.103.154.48 | 93-103-154-48.dynamic.t-2.net | SI |
195.78.123.5 | ip005-123.netbone.cz | CZ |
64.62.252.163 | ? | US |
64.62.252.164 | ? | US |
64.62.252.162 | ? | US |
64.62.252.169 | ? | US |
52.201.172.119 | ec2-52-201-172-119.compute-1.amazonaws.com | US |
34.202.159.35 | ec2-34-202-159-35.compute-1.amazonaws.com | US |
52.23.213.46 | ec2-52-23-213-46.compute-1.amazonaws.com | US |
54.174.39.248 | ec2-54-174-39-248.compute-1.amazonaws.com | US |
35.153.193.122 | ec2-35-153-193-122.compute-1.amazonaws.com | US |
54.208.249.249 | ec2-54-208-249-249.compute-1.amazonaws.com | US |
34.207.57.181 | ec2-34-207-57-181.compute-1.amazonaws.com | US |
34.232.76.186 | ec2-34-232-76-186.compute-1.amazonaws.com | US |
34.201.161.68 | ec2-34-201-161-68.compute-1.amazonaws.com | US |
174.129.54.205 | ec2-174-129-54-205.compute-1.amazonaws.com | US |
35.168.8.213 | ec2-35-168-8-213.compute-1.amazonaws.com | US |
52.91.148.207 | ec2-52-91-148-207.compute-1.amazonaws.com | US |
107.20.26.147 | ec2-107-20-26-147.compute-1.amazonaws.com | US |
52.91.154.143 | ec2-52-91-154-143.compute-1.amazonaws.com | US |
52.72.12.225 | ec2-52-72-12-225.compute-1.amazonaws.com | US |
54.86.94.45 | ec2-54-86-94-45.compute-1.amazonaws.com | US |
54.166.133.220 | ec2-54-166-133-220.compute-1.amazonaws.com | US |
54.208.43.88 | ec2-54-208-43-88.compute-1.amazonaws.com | US |
IP地址(680) | 伺服器名稱 | 所屬國家 |
---|---|---|
34.201.161.68 | ec2-34-201-161-68.compute-1.amazonaws.com | US |
174.129.54.205 | ec2-174-129-54-205.compute-1.amazonaws.com | US |
35.168.8.213 | ec2-35-168-8-213.compute-1.amazonaws.com | US |
52.91.148.207 | ec2-52-91-148-207.compute-1.amazonaws.com | US |
107.20.26.147 | ec2-107-20-26-147.compute-1.amazonaws.com | US |
52.91.154.143 | ec2-52-91-154-143.compute-1.amazonaws.com | US |
52.72.12.225 | ec2-52-72-12-225.compute-1.amazonaws.com | US |
54.86.94.45 | ec2-54-86-94-45.compute-1.amazonaws.com | US |
54.166.133.220 | ec2-54-166-133-220.compute-1.amazonaws.com | US |
54.208.43.88 | ec2-54-208-43-88.compute-1.amazonaws.com | US |
對於未知蜘蛛或者爬蟲。它的用途對網站來說可能是好的,也可能是壞的,這取決於它是什麼。所以說,這需要站長進一步分析判斷這些尚不明確的爬蟲行為,再作最終決定。 但,根據以往的經驗,未宣告行為目的及未命名的蜘蛛爬蟲,通常都有不可告人的祕密,我們理應對其行為進行控制,比如攔截。
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 BUbiNG 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: BUbiNG Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。
BUbiNG是一個可擴充套件的、完全分散式的爬蟲,目前正在開發中,它取代了UbiCrawler。
BUbiNG支援機器人排除標準。如果你想排除你的網站被BUbiNG抓取,請參閱《網路機器人頁面》。
簡而言之,你可以在你想排除抓取的網路伺服器根目錄的robots.txt檔案中放入以下內容。
User-agent: BUbiNG Disallow: /
目前,BUbiNG尊重robots.txt檔案的變化(通常每小時一次),但不支援META標籤的機器人排除。
如需任何資訊,請隨時傳送電子郵件至 law@di.unimi.it。