PaperLiBot

PaperLiBot蜘蛛/爬虫属于其他类型,由Finity SA开发运行。您可以继续阅读下方信息,以深入了解PaperLiBot基本信息,用户代理和访问控制等。

基本信息

PaperLiBot的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
PaperLiBot
类型
其他
开发商
Finity SA
当前状态
活动

用户代理

关于PaperLiBot蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
PaperLiBot/2.1
用户代理字符串
Mozilla/5.0 (compatible; PaperLiBot/2.1; https://support.paper.li/entries/20023257-what-is-paper-li)
首次出现
2018-07-13 05:58:51
最后出现
2021-03-24 13:49:22
遵循robots.txt
来源
IP地址(20) 服务器名称 所属国家
135.125.219.90 ? US
37.187.162.178 ns338306.ip-37-187-162.eu FR
37.187.162.184 ns338312.ip-37-187-162.eu FR
37.187.165.37 ns336619.ip-37-187-165.eu FR
37.187.167.33 ns339849.ip-37-187-167.eu FR
37.187.162.186 ns338314.ip-37-187-162.eu FR
37.187.162.165 ns338293.ip-37-187-162.eu FR
37.187.165.36 ns336618.ip-37-187-165.eu FR
37.187.162.191 ns338319.ip-37-187-162.eu FR
37.187.162.193 ns338321.ip-37-187-162.eu FR
用户代理字符串
Mozilla/5.0 (compatible; PaperLiBot/2.1; http://support.paper.li/entries/20023257-what-is-paper-li)
首次出现
2012-05-06 21:25:00
最后出现
2018-07-17 05:38:09
遵循robots.txt
来源
IP地址(28) 服务器名称 所属国家
135.125.219.72 crawler15.paper.li DE
135.125.216.246 crawler1.paper.li FR
152.228.166.119 crawler9.paper.li FR
135.125.219.40 crawler4.paper.li FR
135.125.217.232 crawler10.paper.li FR
135.125.216.65 crawler12.paper.li FR
135.125.219.90 ? US
135.125.88.213 crawler13.paper.li FR
152.228.167.63 crawler8.paper.li FR
51.210.126.244 crawler5.paper.li FR
135.125.218.78 crawler2.paper.li DE
51.210.249.89 crawler14.paper.li FR
152.228.166.33 crawler3.paper.li FR
51.210.36.36 crawler11.paper.li FR
37.187.162.178 ns338306.ip-37-187-162.eu FR
37.187.162.184 ns338312.ip-37-187-162.eu FR
37.187.165.37 ns336619.ip-37-187-165.eu FR
37.187.167.33 ns339849.ip-37-187-167.eu FR
37.187.162.186 ns338314.ip-37-187-162.eu FR
37.187.162.165 ns338293.ip-37-187-162.eu FR
37.187.165.36 ns336618.ip-37-187-165.eu FR
37.187.162.191 ns338319.ip-37-187-162.eu FR
37.187.162.193 ns338321.ip-37-187-162.eu FR
37.187.162.183 ns338311.ip-37-187-162.eu FR
37.187.162.185 ns338313.ip-37-187-162.eu FR
37.187.162.187 ns338315.ip-37-187-162.eu FR
37.187.162.192 ns338320.ip-37-187-162.eu FR
37.187.162.126 ns335800.ip-37-187-162.eu FR
37.187.165.195 ns337541.ip-37-187-165.eu FR
51.91.136.171 crawler6.paper.li FR
37.187.165.31 ns336613.ip-37-187-165.eu FR
用户代理字符串
Mozilla/5.0 (compatible; PaperLiBot/2.1; http://support.paper.li/entries/20023257-what-is-paper-li)
首次出现
2012-05-06 21:25:00
最后出现
2018-07-17 05:38:09
遵循robots.txt
未知
来源
IP地址(28) 服务器名称 所属国家
37.187.162.183 ns338311.ip-37-187-162.eu FR
37.187.162.185 ns338313.ip-37-187-162.eu FR
37.187.162.193 ns338321.ip-37-187-162.eu FR
37.187.162.184 ns338312.ip-37-187-162.eu FR
37.187.165.31 ns336613.ip-37-187-165.eu FR
37.187.162.192 ns338320.ip-37-187-162.eu FR
37.187.162.187 ns338315.ip-37-187-162.eu FR
37.187.162.191 ns338319.ip-37-187-162.eu FR
37.187.162.178 ns338306.ip-37-187-162.eu FR
37.187.162.186 ns338314.ip-37-187-162.eu FR
用户代理字符串
wangling
首次出现
2015-10-02 15:51:47
最后出现
2017-01-09 13:08:09
遵循robots.txt
来源
IP地址(4) 服务器名称 所属国家
5.135.140.29 ns2309991.ip-5-135-140.eu FR
5.135.138.175 ns2307208.ip-5-135-138.eu FR
5.135.139.138 ns2308071.ip-5-135-139.eu FR
5.135.139.114 ns2308047.ip-5-135-139.eu FR

访问控制

了解如何控制PaperLiBot访问权限,避免PaperLiBot抓取行为不当。

是否拦截PaperLiBot?

对于未知蜘蛛或者爬虫。它的用途对网站来说可能是好的,也可能是坏的,这取决于它是什么。所以说,这需要站长进一步分析判断这些尚不明确的爬虫行为,再作最终决定。 但,根据以往的经验,未声明行为目的及未命名的蜘蛛爬虫,通常都有不可告人的秘密,我们理应对其行为进行控制,比如拦截。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 PaperLiBot 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: PaperLiBot
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

PaperLiBot是Paper.li的网络爬虫的通用名称。

Paper.li是一项内容策划服务,让你把社会共享的内容变成美丽的在线报纸和通讯。

为什么PaperLiBot会抓取我的网站?

PaperLiBot可能因为以下原因开始抓取你的网站:

  • 您的网站在社交媒体网站上被分享或参与了。
  • 你的网站在宣传RSS订阅。
  • 一个Paper.li用户正在将你的网站的一些内容添加到他们的论文中。

我的网站内容如何被使用?

您的内容可能被包含在Paper.li的一篇或多篇论文中。这些内容可以在论文网页上看到,也可以包含在电子邮件通讯和社会宣传中(Twitter、Facebook和LinkedIn)。

当您的内容被收录时,将采取以下格式:

  • 一个指向原始内容URL(你的网站)的链接。
  • 该页的标题(在内容被抓取时)。
  • 在原始内容的URL上发现的图片缩略图。
  • 内容的简短摘要(不超过200个字符)。
  • 导致发现该内容的来源(社交媒体上的帖子、RSS feed条目、贡献者)。

关于爬虫的技术细节

当PaperLiBot爬虫访问您的网站时,它将发送一个有效的用户代理头,并从Paper.li的基础设施连接。

PaperLiBot的用户代理是:

Mozilla/5.0 (compatible; PaperLiBot/2.1; https://support.paper.li/entries/20023257-what-is-paper-li)

PaperLiBot被设计为同时在多台不同的机器上运行以提高性能和规模。因此,您的日志可能会显示来自我们基础设施内的几台机器的访问,我们的基础设施托管在OVHcloud(欧洲)和亚马逊网络服务(美国)。

PaperLiBot通常平均每几秒钟访问你的网站不超过一次。然而,由于社会媒体内容的病毒性质,有可能在短期内出现稍高的比率。

如果您想阻止PaperLiBot抓取您网站上的内容,请与Paper.li联系,以便Paper.li将您的网站添加到Paper.li的封锁名单中,并阻止未来的内容被纳入Paper.li服务中。

常见蜘蛛/爬虫

Common Spiders
companyspotter
companyspotter蜘蛛/爬虫属于其他类型,由CompanySpotter BV开发运行。您可以继续阅读下方信息,以深入了解companyspotter基本信息,用户代理和访问控制等。
DataForSeo bot
DataForSeo bot蜘蛛/爬虫属于其他类型,由DataForSEO OU开发运行。您可以继续阅读下方信息,以深入了解DataForSeo bot基本信息,用户代理和访问控制等。
CloudFlare crawler
CloudFlare crawler蜘蛛/爬虫属于其他类型,由CloudFlare, Inc.开发运行。您可以继续阅读下方信息,以深入了解CloudFlare crawler基本信息,用户代理和访问控制等。
Odin
Odin蜘蛛/爬虫属于其他类型,由Cyble, Inc.开发运行。您可以继续阅读下方信息,以深入了解Odin基本信息,用户代理和访问控制等。
Chrome Privacy Preserving Prefetch Proxy
Chrome Privacy Preserving Prefetch Proxy蜘蛛/爬虫属于其他类型,由Google Inc.开发运行。您可以继续阅读下方信息,以深入了解Chrome Privacy Preserving Prefetch Proxy基本信息,用户代理和访问控制等。
EFF crawler
EFF crawler蜘蛛/爬虫属于其他类型,由Electronic Frontier Foundation开发运行。您可以继续阅读下方信息,以深入了解EFF crawler基本信息,用户代理和访问控制等。
Modat crawler
Modat crawler蜘蛛/爬虫属于其他类型,由Modat B.V.开发运行。您可以继续阅读下方信息,以深入了解Modat crawler基本信息,用户代理和访问控制等。
FirmoGraph
FirmoGraph蜘蛛/爬虫属于其他类型,由firmograph.io开发运行。您可以继续阅读下方信息,以深入了解FirmoGraph基本信息,用户代理和访问控制等。

相关文章

Related Articles