
如何做搜尋引擎蜘蛛日誌分析
搜尋引擎蜘蛛日誌檔案是一種非常強大但未被站長充分利用的檔案,分析它可以獲取有關每個搜尋引擎如何爬取網站內容的相關資訊點,及檢視搜尋引擎蜘蛛在一段時間內的行為。
IP地址(169) | 伺服器名稱 | 所屬國家 |
---|---|---|
68.83.191.117 | c-68-83-191-117.hsd1.pa.comcast.net | US |
203.213.108.253 | 203-213-108-253.static.tpgi.com.au | AU |
5.10.13.12 | cust-5-10-13-12.pools.tk-bodensee.net | DE |
52.58.51.168 | ec2-52-58-51-168.eu-central-1.compute.amazonaws.com | DE |
82.165.224.156 | crawlbap27.1and1.org | DE |
82.165.224.164 | crawlbap35.1and1.org | DE |
82.165.224.212 | crawlbap83.1and1.org | DE |
82.165.224.252 | crawlbap123.1and1.org | DE |
82.165.224.220 | crawlbap91.1and1.org | DE |
82.165.224.228 | crawlbap99.1and1.org | DE |
IP地址(66) | 伺服器名稱 | 所屬國家 |
---|---|---|
78.111.120.31 | u120-31.static.grapesc.cz | CZ |
160.16.113.81 | tk2-232-25827.vs.sakura.ne.jp | JP |
160.16.241.202 | tk2-262-40948.vs.sakura.ne.jp | JP |
218.18.3.167 | ? | CN |
153.156.71.182 | p4934182-ipngnfx01marunouchi.tokyo.ocn.ne.jp | JP |
38.106.143.231 | cip-231.trustwave.com | US |
128.143.137.126 | grayson.cs.virginia.edu | US |
217.162.118.164 | 217-162-118-164.dynamic.hispeed.ch | CH |
109.207.29.2 | salt-ext.roke.co.uk | GB |
80.244.17.1 | ? | CY |
IP地址(1) | 伺服器名稱 | 所屬國家 |
---|---|---|
141.7.43.55 | shc-rn-55.gecko.hs-heilbronn.de | DE |
68.83.191.117 | c-68-83-191-117.hsd1.pa.comcast.net | US |
203.213.108.253 | 203-213-108-253.static.tpgi.com.au | AU |
5.10.13.12 | cust-5-10-13-12.pools.tk-bodensee.net | DE |
52.58.51.168 | ec2-52-58-51-168.eu-central-1.compute.amazonaws.com | DE |
82.165.224.156 | crawlbap27.1and1.org | DE |
82.165.224.164 | crawlbap35.1and1.org | DE |
82.165.224.212 | crawlbap83.1and1.org | DE |
82.165.224.252 | crawlbap123.1and1.org | DE |
82.165.224.220 | crawlbap91.1and1.org | DE |
82.165.224.228 | crawlbap99.1and1.org | DE |
78.111.120.31 | u120-31.static.grapesc.cz | CZ |
160.16.113.81 | tk2-232-25827.vs.sakura.ne.jp | JP |
160.16.241.202 | tk2-262-40948.vs.sakura.ne.jp | JP |
218.18.3.167 | ? | CN |
153.156.71.182 | p4934182-ipngnfx01marunouchi.tokyo.ocn.ne.jp | JP |
38.106.143.231 | cip-231.trustwave.com | US |
128.143.137.126 | grayson.cs.virginia.edu | US |
217.162.118.164 | 217-162-118-164.dynamic.hispeed.ch | CH |
109.207.29.2 | salt-ext.roke.co.uk | GB |
80.244.17.1 | ? | CY |
195.250.140.18 | 195.250.140.18 | CZ |
IP地址(1) | 伺服器名稱 | 所屬國家 |
---|---|---|
195.250.140.18 | 195.250.140.18 | CZ |
對於未知蜘蛛或者爬蟲。它的用途對網站來說可能是好的,也可能是壞的,這取決於它是什麼。所以說,這需要站長進一步分析判斷這些尚不明確的爬蟲行為,再作最終決定。 但,根據以往的經驗,未宣告行為目的及未命名的蜘蛛爬蟲,通常都有不可告人的祕密,我們理應對其行為進行控制,比如攔截。
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 Crawler4j 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: Crawler4j Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。