

IP地址(16) | 服务器名称 | 所属国家 |
---|---|---|
199.16.185.50 | spider17.boardreader.com | US |
208.64.38.178 | 208.64.38.178 | US |
204.11.34.42 | spider12.boardreader.com | US |
199.16.186.106 | spider20.boardreader.com | US |
208.92.221.106 | spider16.boardreader.com | US |
199.16.185.58 | spider18.boardreader.com | US |
208.64.39.178 | spider7.boardreader.com | US |
199.16.189.154 | spider36.boardreader.com | US |
208.92.218.134 | spider39.boardreader.com | US |
208.92.221.98 | spider15.boardreader.com | US |
IP地址(1) | 服务器名称 | 所属国家 |
---|---|---|
208.64.38.178 | 208.64.38.178 | US |
可能不需要。工具类型爬虫通常为网站所有者使用此类工具对网站进行相关服务请求才会出现。当然,实际情况需站长判断后再作决定。
您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 BoardReader crawler 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。
# robots.txt # 下列代码一般情况可以拦截该代理 User-agent: BoardReader crawler Disallow: /
您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。
BoardReader crawler抓取BoardReader网络服务所收集的社交媒体数据。BoardReader是一个应用程序,它从互联网上的多个社交媒体来源聚集数据。
为了运行BoardReader crawler,你需要一个BoardReader API密钥。联系BoardReader以获得该密钥。
创建爬虫:BoardReader screen是你输入该爬虫配置参数的地方。
Crawler name:爬虫的名称。允许使用字母数字字符、连字符、下划线和空格。
Crawler description:对爬虫的描述。
Advanced options:
BoardReader许可证密钥:BoardReader许可证密钥,用于调用BoardReader API。
抓取持续时间:选择抓取持续时间。
开始日期:抓取的持续时间开始日期。
结束日期:要抓取的持续时间结束日期。
持续时间类型:选择抓取的持续时间类型。该选项仅在指定期限的当前时间被选为抓取期限时显示。
持续时间段:抓取持续时间段的数量。该选项仅在指定期限的当前时间被选为 “抓取期限 “时显示。
域条件:要抓取的社会媒体的域列表。
查询条件:BoardReader用来限制抓取内容的数量的查询。爬虫应用布尔OR逻辑来组合多个查询。
BoardReader API参数:BoardReader的API参数。例如,filter_language=ja&filter_country=jp将抓取的内容限制在源自日本的日语文档。
默认时区:默认时区,用于将日期字符串值解析为纪元时间。
时区列表:指定的时区,用于解析从相应域名抓取的日期字符串值。例如,*fr.yahoo.com=WET。
代理服务器主机名称:代理服务器的主机名。
代理服务器端口:代理服务器的端口。
代理服务器的用户ID:访问代理服务器的用户名。
代理服务器的密码:访问代理服务器的用户的密码。
您可以为一个BoardReader crawler找到并添加多个爬虫空间。有关说明,请参阅在BoardReader爬虫中查找和添加爬虫空间。
数据源爬虫插件是Java™应用程序,可以改变爬行文档的内容或元数据。你可以为所有非网络爬虫类型配置一个数据源爬虫插件。欲了解更多信息,请参阅爬虫插件。