BoardReader crawler

BoardReader crawler蜘蛛/爬虫属于工具类型,由Effyis, Inc.开发运行。您可以继续阅读下方信息,以深入了解BoardReader crawler基本信息,用户代理和访问控制等。

基本信息

BoardReader crawler的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
BoardReader crawler
类型
工具
开发商
Effyis, Inc.
当前状态
活动

用户代理

关于BoardReader crawler蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
BoardReader Favicon Fetcher /1.0
用户代理字符串
BoardReader Favicon Fetcher /1.0 info@boardreader.com
首次出现
2016-01-20 10:25:00
最后出现
2021-05-02 09:47:48
遵循robots.txt
未知
来源
IP地址(16) 服务器名称 所属国家
199.16.185.50 spider17.boardreader.com US
208.64.38.178 208.64.38.178 US
204.11.34.42 spider12.boardreader.com US
199.16.186.106 spider20.boardreader.com US
208.92.221.106 spider16.boardreader.com US
199.16.185.58 spider18.boardreader.com US
208.64.39.178 spider7.boardreader.com US
199.16.189.154 spider36.boardreader.com US
208.92.218.134 spider39.boardreader.com US
208.92.221.98 spider15.boardreader.com US
用户代理字符串
BoardReader Blog Indexer(http://boardreader.com)
首次出现
2017-11-25 14:52:13
最后出现
2017-11-25 14:52:13
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
208.64.38.178 208.64.38.178 US

访问控制

了解如何控制BoardReader crawler访问权限,避免BoardReader crawler抓取行为不当。

是否拦截BoardReader crawler?

可能不需要。工具类型爬虫通常为网站所有者使用此类工具对网站进行相关服务请求才会出现。当然,实际情况需站长判断后再作决定。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 BoardReader crawler 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: BoardReader crawler
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

BoardReader crawler抓取BoardReader网络服务所收集的社交媒体数据。BoardReader是一个应用程序,它从互联网上的多个社交媒体来源聚集数据。

为了运行BoardReader crawler,你需要一个BoardReader API密钥。联系BoardReader以获得该密钥。

创建爬虫:BoardReader screen是你输入该爬虫配置参数的地方。

爬虫属性

Crawler name:爬虫的名称。允许使用字母数字字符、连字符、下划线和空格。

Crawler description:对爬虫的描述。

Advanced options:

  • 检索请求之间的等待时间:该时间以毫秒表示。
  • 活动爬虫线程的最大数量
  • 最大的文档大小:以千字节表示的最大尺寸。最大值为131,071千字节。
  • 爬虫会话开始时:指定要抓取哪些内容。

数据源属性

BoardReader许可证密钥:BoardReader许可证密钥,用于调用BoardReader API。

抓取持续时间:选择抓取持续时间。

开始日期:抓取的持续时间开始日期。

结束日期:要抓取的持续时间结束日期。

持续时间类型:选择抓取的持续时间类型。该选项仅在指定期限的当前时间被选为抓取期限时显示。

持续时间段:抓取持续时间段的数量。该选项仅在指定期限的当前时间被选为 “抓取期限 “时显示。

域条件:要抓取的社会媒体的域列表。

查询条件:BoardReader用来限制抓取内容的数量的查询。爬虫应用布尔OR逻辑来组合多个查询。

BoardReader API参数:BoardReader的API参数。例如,filter_language=ja&filter_country=jp将抓取的内容限制在源自日本的日语文档。

默认时区:默认时区,用于将日期字符串值解析为纪元时间。

时区列表:指定的时区,用于解析从相应域名抓取的日期字符串值。例如,*fr.yahoo.com=WET。

代理服务器主机名称:代理服务器的主机名。

代理服务器端口:代理服务器的端口。

代理服务器的用户ID:访问代理服务器的用户名。

代理服务器的密码:访问代理服务器的用户的密码。

爬虫空间属性

您可以为一个BoardReader crawler找到并添加多个爬虫空间。有关说明,请参阅在BoardReader爬虫中查找和添加爬虫空间

爬虫插件

数据源爬虫插件是Java™应用程序,可以改变爬行文档的内容或元数据。你可以为所有非网络爬虫类型配置一个数据源爬虫插件。欲了解更多信息,请参阅爬虫插件

  • 启用爬虫插件:当您使用爬虫插件时,请启用此选项。
  • 插件类别名称:爬虫插件的类名。
  • 插件类的路径:爬虫插件的JAR文件位置。包含JAR文件的文件夹必须被挂载,以便它可以使用。欲了解更多信息,请参阅从Watson Explorer oneWEX提供对本地文件系统的访问

常见蜘蛛/爬虫

Common Spiders
GoodBarber
GoodBarber蜘蛛/爬虫属于工具类型,由GoodBarber SAS开发运行。您可以继续阅读下方信息,以深入了解GoodBarber基本信息,用户代理和访问控制等。
PWABuilder
PWABuilder蜘蛛/爬虫属于工具类型,由Microsoft Corporation.开发运行。您可以继续阅读下方信息,以深入了解PWABuilder基本信息,用户代理和访问控制等。
webzio
webzio蜘蛛/爬虫属于工具类型,由Webz.io Ltd.开发运行。您可以继续阅读下方信息,以深入了解webzio基本信息,用户代理和访问控制等。
globalping bot
globalping bot蜘蛛/爬虫属于工具类型,由globalping.io开发运行。您可以继续阅读下方信息,以深入了解globalping bot基本信息,用户代理和访问控制等。
Googlebot
GoogleBot蜘蛛/爬虫属于搜索引擎类型,由Google Inc.开发运行。您可以继续阅读下方信息,以深入了解GoogleBot基本信息,用户代理和访问控制等。
Online Domain Tools
Online Domain Tools蜘蛛/爬虫属于监控类型,由AITIS s.r.o.开发运行。您可以继续阅读下方信息,以深入了解Online Domain Tools基本信息,用户代理和访问控制等。
cron-job.org
cron-job.org蜘蛛/爬虫属于工具类型,由B1G Software开发运行。您可以继续阅读下方信息,以深入了解cron-job.org基本信息,用户代理和访问控制等。
WGETbot
WGETbot蜘蛛/爬虫属于工具类型,由Alan Reed开发运行。您可以继续阅读下方信息,以深入了解WGETbot基本信息,用户代理和访问控制等。

相关文章

Related Articles