heritrix
heritrix蜘蛛/爬虫属于快照类型,由Internet Archive开发运行。您可以继续阅读下方信息,以深入了解heritrix基本信息,用户代理和访问控制等。
基本信息
heritrix的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
- 蜘蛛/爬虫名称
- heritrix
- 类型
- 快照
- 开发商
-
Internet Archive
- 当前状态
-
活动
用户代理
关于heritrix蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
heritrix/2.0.2
-
heritrix/2.0.2
-
heritrix/3.0.0
-
heritrix/1.14.3.r6601
-
heritrix/1.14.2
-
heritrix/1.14.3
- 用户代理字符串
- Mozilla/5.0 (compatible; heritrix/2.0.2 +http://seekda.com)
- 首次出现
- 2009-06-12 23:31:43
- 最后出现
- 2021-09-30 05:21:35
- 遵循robots.txt
- 未知
- 来源
-
IP地址(2) |
服务器名称 |
所属国家 |
167.99.89.94 |
167.99.89.94 |
GB |
78.46.75.108 |
ngbits.de |
PH |
- 用户代理字符串
- Mozilla/5.0 (compatible; heritrix/3.0.0-SNAPSHOT-20091120.021634 +http://crawler.archive.org)
- 首次出现
- 2009-11-20 22:09:05
- 最后出现
- 2009-11-24 17:32:55
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
207.241.228.146 |
ia360902.us.archive.org |
US |
- 用户代理字符串
- Mozilla/5.0 (compatible; heritrix/1.14.3.r6601 +http://www.buddybuzz.net/yptrino)
- 首次出现
- 2009-11-22 12:06:53
- 最后出现
- 2009-11-22 12:06:53
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
12.175.178.250 |
dev-ypapi01.v.wc1.yp.com |
US |
- 用户代理字符串
- Mozilla/5.0 (compatible; heritrix/1.14.2 +http://rjpower.org)
- 首次出现
- 2009-08-26 13:58:03
- 最后出现
- 2009-08-26 13:58:06
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
216.165.108.146 |
216.165.108.146 |
US |
- 用户代理字符串
- Mozilla/5.0 (compatible; heritrix/1.14.3 +http://archive.org)
- 首次出现
- 2009-06-01 19:55:00
- 最后出现
- 2009-06-11 09:06:50
- 遵循robots.txt
- 未知
- 来源
-
IP地址(2) |
服务器名称 |
所属国家 |
78.99.69.17 |
adsl-dyn17.78-99-69.t-com.sk |
DE |
147.229.210.52 |
a02-0810d.kn.vutbr.cz |
CZ |
访问控制
了解如何控制heritrix访问权限,避免heritrix抓取行为不当。
是否拦截heritrix?
这取决于你。数字存档通常是为了保存历史记录。如果你出于某种原因不想成为历史记录的一部分,你可以拦截这类型的蜘蛛爬虫。
通过Robots.txt拦截
您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 heritrix 或限制其访问权限。我们建议安装 Spider Analyser
插件,以检查它是否真正遵循这些规则。
# robots.txt
# 下列代码一般情况可以拦截该代理
User-agent: heritrix
Disallow: /
# robots.txt
# 下列代码一般情况可以拦截该代理
User-agent: heritrix
Disallow: /
您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。