CorpusCrawler
CorpusCrawler蜘蛛/爬虫属于类型,由NLP – at the Faculty of Informatics, Masaryk University, Brno开发运行。您可以继续阅读下方信息,以深入了解CorpusCrawler基本信息,用户代理和访问控制等。
基本信息
CorpusCrawler的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
- 蜘蛛/爬虫名称
- CorpusCrawler
- 类型
- 其他
- 开发商
-
NLP - at the Faculty of Informatics, Masaryk University, Brno
- 当前状态
-
无效
用户代理
关于CorpusCrawler蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
CorpusCrawler 2.0.25
-
CorpusCrawler 2.0.25
-
CorpusCrawler 2.0.24
-
CorpusCrawler 2.0.22
-
CorpusCrawler 2.0.21
-
CorpusCrawler 2.0.20
-
CorpusCrawler 2.0.19
-
CorpusCrawler 2.0.17
-
CorpusCrawler 2.0.15
-
CorpusCrawler 2.0.14
-
CorpusCrawler 2.0.13
-
CorpusCrawler 2.0.12
-
CorpusCrawler 2.0.10
-
CorpusCrawler 2.0.9
-
CorpusCrawler 2.0.8
-
CorpusCrawler 2.0.0
- 用户代理字符串
- CorpusCrawler 2.0.25 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出现
- 2010-01-16 01:44:50
- 最后出现
- 2010-01-16 01:58:45
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.24 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出现
- 2010-01-16 00:10:02
- 最后出现
- 2010-01-16 01:19:26
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.22 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出现
- 2010-01-15 21:10:20
- 最后出现
- 2010-01-14 05:00:33
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.21 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出现
- 2010-01-12 20:27:32
- 最后出现
- 2010-01-12 20:27:32
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.20 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出现
- 2010-01-10 16:57:49
- 最后出现
- 2010-01-12 16:05:41
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.19 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出现
- 2010-01-09 17:33:58
- 最后出现
- 2010-01-10 15:34:25
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.17 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
- 首次出现
- 2010-01-09 03:49:30
- 最后出现
- 2010-01-09 11:18:53
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.15 (http://corpora.fi.muni.cz/crawler/)
- 首次出现
- 2010-01-13 20:14:04
- 最后出现
- 2010-01-05 20:37:45
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.14 (http://corpora.fi.muni.cz/crawler/)
- 首次出现
- 2010-01-03 17:50:00
- 最后出现
- 2010-01-03 13:59:48
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.13 (http://corpora.fi.muni.cz/crawler/)
- 首次出现
- 2009-05-11 05:50:00
- 最后出现
- 2010-01-03 03:48:35
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.12 (http://corpora.fi.muni.cz/crawler/)
- 首次出现
- 2009-05-11 05:50:00
- 最后出现
- 2010-01-02 15:07:23
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.10 (http://corpora.fi.muni.cz/crawler/)
- 首次出现
- 2009-12-26 20:34:33
- 最后出现
- 2009-12-26 06:09:29
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.9 (http://corpora.fi.muni.cz/crawler/)
- 首次出现
- 2009-12-19 16:46:42
- 最后出现
- 2009-12-19 20:16:30
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.8 (http://corpora.fi.muni.cz/crawler/)
- 首次出现
- 2009-12-17 01:44:59
- 最后出现
- 2009-12-17 02:42:56
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
- 用户代理字符串
- CorpusCrawler 2.0.0 (http://corpora.fi.muni.cz/crawler/)
- 首次出现
- 2009-12-16 20:27:04
- 最后出现
- 2009-12-15 06:56:05
- 遵循robots.txt
- 未知
- 来源
-
IP地址(1) |
服务器名称 |
所属国家 |
147.251.45.17 |
apollo.fi.muni.cz |
EU |
访问控制
了解如何控制CorpusCrawler访问权限,避免CorpusCrawler抓取行为不当。
是否拦截CorpusCrawler?
对于未知蜘蛛或者爬虫。它的用途对网站来说可能是好的,也可能是坏的,这取决于它是什么。所以说,这需要站长进一步分析判断这些尚不明确的爬虫行为,再作最终决定。
但,根据以往的经验,未声明行为目的及未命名的蜘蛛爬虫,通常都有不可告人的秘密,我们理应对其行为进行控制,比如拦截。
通过Robots.txt拦截
您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 CorpusCrawler 或限制其访问权限。我们建议安装 Spider Analyser
插件,以检查它是否真正遵循这些规则。
# robots.txt
# 下列代码一般情况可以拦截该代理
User-agent: CorpusCrawler
Disallow: /
您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。
更多信息
NLP中心的体例
- ske.fi.muni.cz 提供:
- 为马萨里克大学的员工和学生提供Sketch引擎
- NLP中心(正在)开发的语料库:
语料库(lang) |
数以百万计的tokens |
NEW: English (ClueWeb09)1 |
82,581 |
Russian |
20,162 |
English |
12,968 |
French |
12,369 |
Japanese |
11,113 |
Polish |
9,567 |
Spanish (American) |
8,719 |
Arabic |
6,637 |
Czech |
5,818 |
Turkish |
4,125 |
Hungarian |
3,184 |
Italian |
3,077 |
German |
2,844 |
Spanish (European) |
2,459 |
Chinese |
2,107 |
Portuguese (European) |
948 |
Slovak |
876 |
Bulgarian |
849 |
Norwegian |
770 |
Korean |
561 |
czes (Czech) |
465 |
Estonian |
324 |
Kazakh |
139 |
Azerbaijani |
115 |
Tajik |
52 |
Uzbek |
25 |
Kyrgyz |
24 |
Turkmen |
2 |
DESAM (Czech) |
1 |
- 与Lexical Computing Ltd.合作开发的软件:
- NLP中心的语料库相关项目:
如有必要,请联系 corpadm@aurora.fi.muni.cz