如何做搜索引擎蜘蛛日志分析
搜索引擎蜘蛛日志文件是一种非常强大但未被站长充分利用的文件,分析它可以获取有关每个搜索引擎如何爬取网站内容的相关信息点,及查看搜索引擎蜘蛛在一段时间内的行为。
| IP地址(6) | 服务器名称 | 所属国家 |
|---|---|---|
| 45.77.34.215 | 45.77.34.215.vultr.com | SG |
| 103.145.227.228 | ? | ID |
| 128.199.143.94 | 128.199.143.94 | SG |
| 128.199.109.118 | ? | SG |
| 206.189.159.91 | ? | SG |
| 188.245.179.177 | static.177.179.245.188.clients.your-server.de | DE |
| IP地址(5) | 服务器名称 | 所属国家 |
|---|---|---|
| 162.158.63.202 | ? | US |
| 172.68.142.227 | ? | US |
| 108.162.246.185 | ? | US |
| 162.158.89.127 | ? | DE |
| 172.68.189.79 | 172.68.189.79 | US |
| IP地址(2) | 服务器名称 | 所属国家 |
|---|---|---|
| 103.145.227.86 | ? | ID |
| 103.145.227.228 | ? | ID |
| IP地址(2) | 服务器名称 | 所属国家 |
|---|---|---|
| 103.145.227.78 | sgx04.dewaweb.com | ID |
| 13.57.11.166 | ec2-13-57-11-166.us-west-1.compute.amazonaws.com | US |
| IP地址(10) | 服务器名称 | 所属国家 |
|---|---|---|
| 161.35.6.249 | ? | US |
| 64.227.22.6 | 64.227.22.6 | US |
| 103.145.227.86 | ? | ID |
| 103.145.227.228 | ? | ID |
| 52.53.191.176 | ec2-52-53-191-176.us-west-1.compute.amazonaws.com | US |
| 54.193.116.170 | ec2-54-193-116-170.us-west-1.compute.amazonaws.com | US |
| 18.144.66.75 | ec2-18-144-66-75.us-west-1.compute.amazonaws.com | US |
| 54.215.254.209 | ec2-54-215-254-209.us-west-1.compute.amazonaws.com | US |
| 52.53.181.109 | ec2-52-53-181-109.us-west-1.compute.amazonaws.com | US |
| 50.18.21.30 | ec2-50-18-21-30.us-west-1.compute.amazonaws.com | US |
| 54.193.25.91 | ec2-54-193-25-91.us-west-1.compute.amazonaws.com | US |
| 54.177.75.79 | ec2-54-177-75-79.us-west-1.compute.amazonaws.com | US |
| 54.219.174.49 | ec2-54-219-174-49.us-west-1.compute.amazonaws.com | US |
| 13.57.185.132 | ec2-13-57-185-132.us-west-1.compute.amazonaws.com | US |
| IP地址(10) | 服务器名称 | 所属国家 |
|---|---|---|
| 52.53.191.176 | ec2-52-53-191-176.us-west-1.compute.amazonaws.com | US |
| 54.193.116.170 | ec2-54-193-116-170.us-west-1.compute.amazonaws.com | US |
| 18.144.66.75 | ec2-18-144-66-75.us-west-1.compute.amazonaws.com | US |
| 54.215.254.209 | ec2-54-215-254-209.us-west-1.compute.amazonaws.com | US |
| 52.53.181.109 | ec2-52-53-181-109.us-west-1.compute.amazonaws.com | US |
| 50.18.21.30 | ec2-50-18-21-30.us-west-1.compute.amazonaws.com | US |
| 54.193.25.91 | ec2-54-193-25-91.us-west-1.compute.amazonaws.com | US |
| 54.177.75.79 | ec2-54-177-75-79.us-west-1.compute.amazonaws.com | US |
| 54.219.174.49 | ec2-54-219-174-49.us-west-1.compute.amazonaws.com | US |
| 13.57.185.132 | ec2-13-57-185-132.us-west-1.compute.amazonaws.com | US |
这取决于你。数字存档通常是为了保存历史记录。如果你出于某种原因不想成为历史记录的一部分,你可以拦截这类型的蜘蛛爬虫。
您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 Statically crawler 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。
# robots.txt # 下列代码一般情况可以拦截该代理 User-agent: Statically crawler Disallow: /
您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。
(工作日 10:00 - 18:30 为您服务)