CorpusCrawler

CorpusCrawler蜘蛛/爬虫属于类型,由NLP – at the Faculty of Informatics, Masaryk University, Brno开发运行。您可以继续阅读下方信息,以深入了解CorpusCrawler基本信息,用户代理和访问控制等。

基本信息

CorpusCrawler的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
CorpusCrawler
类型
其他
开发商
NLP - at the Faculty of Informatics, Masaryk University, Brno
当前状态
无效

用户代理

关于CorpusCrawler蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
CorpusCrawler 2.0.25
用户代理字符串
CorpusCrawler 2.0.25 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出现
2010-01-16 01:44:50
最后出现
2010-01-16 01:58:45
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.24 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出现
2010-01-16 00:10:02
最后出现
2010-01-16 01:19:26
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.22 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出现
2010-01-15 21:10:20
最后出现
2010-01-14 05:00:33
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.21 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出现
2010-01-12 20:27:32
最后出现
2010-01-12 20:27:32
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.20 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出现
2010-01-10 16:57:49
最后出现
2010-01-12 16:05:41
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.19 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出现
2010-01-09 17:33:58
最后出现
2010-01-10 15:34:25
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.17 (http://corpora.fi.muni.cz/crawler/);Project:CzCorpus
首次出现
2010-01-09 03:49:30
最后出现
2010-01-09 11:18:53
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.15 (http://corpora.fi.muni.cz/crawler/)
首次出现
2010-01-13 20:14:04
最后出现
2010-01-05 20:37:45
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.14 (http://corpora.fi.muni.cz/crawler/)
首次出现
2010-01-03 17:50:00
最后出现
2010-01-03 13:59:48
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.13 (http://corpora.fi.muni.cz/crawler/)
首次出现
2009-05-11 05:50:00
最后出现
2010-01-03 03:48:35
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.12 (http://corpora.fi.muni.cz/crawler/)
首次出现
2009-05-11 05:50:00
最后出现
2010-01-02 15:07:23
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.10 (http://corpora.fi.muni.cz/crawler/)
首次出现
2009-12-26 20:34:33
最后出现
2009-12-26 06:09:29
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.9 (http://corpora.fi.muni.cz/crawler/)
首次出现
2009-12-19 16:46:42
最后出现
2009-12-19 20:16:30
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.8 (http://corpora.fi.muni.cz/crawler/)
首次出现
2009-12-17 01:44:59
最后出现
2009-12-17 02:42:56
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU
用户代理字符串
CorpusCrawler 2.0.0 (http://corpora.fi.muni.cz/crawler/)
首次出现
2009-12-16 20:27:04
最后出现
2009-12-15 06:56:05
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
147.251.45.17 apollo.fi.muni.cz EU

访问控制

了解如何控制CorpusCrawler访问权限,避免CorpusCrawler抓取行为不当。

是否拦截CorpusCrawler?

对于未知蜘蛛或者爬虫。它的用途对网站来说可能是好的,也可能是坏的,这取决于它是什么。所以说,这需要站长进一步分析判断这些尚不明确的爬虫行为,再作最终决定。 但,根据以往的经验,未声明行为目的及未命名的蜘蛛爬虫,通常都有不可告人的秘密,我们理应对其行为进行控制,比如拦截。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 CorpusCrawler 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: CorpusCrawler
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

NLP中心的体例

  • ske.fi.muni.cz 提供:
  • 为马萨里克大学的员工和学生提供Sketch引擎
  • NLP中心(正在)开发的语料库:
    语料库(lang) 数以百万计的tokens
    NEW: English (ClueWeb09)1 82,581
    Russian 20,162
    English 12,968
    French 12,369
    Japanese 11,113
    Polish 9,567
    Spanish (American) 8,719
    Arabic 6,637
    Czech 5,818
    Turkish 4,125
    Hungarian 3,184
    Italian 3,077
    German 2,844
    Spanish (European) 2,459
    Chinese 2,107
    Portuguese (European) 948
    Slovak 876
    Bulgarian 849
    Norwegian 770
    Korean 561
    czes (Czech) 465
    Estonian 324
    Kazakh 139
    Azerbaijani 115
    Tajik 52
    Uzbek 25
    Kyrgyz 24
    Turkmen 2
    DESAM (Czech) 1
  • 与Lexical Computing Ltd.合作开发的软件:
  • NLP中心的语料库相关项目:

如有必要,请联系 corpadm@aurora.fi.muni.cz

常见蜘蛛/爬虫

Common Spiders
DataForSeo bot
DataForSeo bot蜘蛛/爬虫属于类型,由DataForSEO OU开发运行。您可以继续阅读下方信息,以深入了解DataForSeo bot基本信息,用户代理和访问控制等。
CloudFlare crawler
CloudFlare crawler蜘蛛/爬虫属于类型,由CloudFlare, Inc.开发运行。您可以继续阅读下方信息,以深入了解CloudFlare crawler基本信息,用户代理和访问控制等。
Odin
Odin蜘蛛/爬虫属于类型,由Cyble, Inc.开发运行。您可以继续阅读下方信息,以深入了解Odin基本信息,用户代理和访问控制等。
Chrome Privacy Preserving Prefetch Proxy
Chrome Privacy Preserving Prefetch Proxy蜘蛛/爬虫属于类型,由Google Inc.开发运行。您可以继续阅读下方信息,以深入了解Chrome Privacy Preserving Prefetch Proxy基本信息,用户代理和访问控制等。
EFF crawler
EFF crawler蜘蛛/爬虫属于类型,由Electronic Frontier Foundation开发运行。您可以继续阅读下方信息,以深入了解EFF crawler基本信息,用户代理和访问控制等。
Modat crawler
Modat crawler蜘蛛/爬虫属于类型,由Modat B.V.开发运行。您可以继续阅读下方信息,以深入了解Modat crawler基本信息,用户代理和访问控制等。
FirmoGraph
FirmoGraph蜘蛛/爬虫属于类型,由firmograph.io开发运行。您可以继续阅读下方信息,以深入了解FirmoGraph基本信息,用户代理和访问控制等。
fluid
fluid蜘蛛/爬虫属于类型,由leak.info开发运行。您可以继续阅读下方信息,以深入了解fluid基本信息,用户代理和访问控制等。

相关文章

Related Articles