OpenWebSearch.eu crawler OpenWebSearch.eu crawler

蜘蛛/爬虫名称
OpenWebSearch.eu crawler
开发商
OpenWebSearch.EU
官网
openwebsearch.eu
当前状态
活动
  • Owler
  • OWLer/1
  • Owler@ows.eu/1
  • OWLer/0.1
用户代理字符串
Owler (ows.eu/owler)
类型
搜索引擎
首次出现
2024-03-07 15:43:17
最后出现
2024-07-10 09:05:53
遵循robots.txt
IP地址
5
来源
IP地址 服务器名称 所属国家
195.113.175.60 ? CZ
138.246.237.240 vm-138-246-237-240.cloud.mwn.de DE
138.246.238.87 vm-138-246-238-87.cloud.mwn.de DE
138.246.237.125 vm-138-246-237-125.cloud.mwn.de DE
195.113.175.51 ? ?
用户代理字符串
Owler@ows.eu/1
类型
搜索引擎
首次出现
2023-07-12 21:09:42
最后出现
2024-02-04 22:21:27
遵循robots.txt
IP地址
8
来源
IP地址 服务器名称 所属国家
195.113.175.60 ? CZ
138.246.238.87 vm-138-246-238-87.cloud.mwn.de DE
138.246.237.240 vm-138-246-237-240.cloud.mwn.de DE
52.71.252.250 ec2-52-71-252-250.compute-1.amazonaws.com US
132.231.12.69 birke.dimis.fim.uni-passau.de DE
138.246.237.125 vm-138-246-237-125.cloud.mwn.de DE
138.246.236.155 vm-138-246-236-155.cloud.mwn.de DE
132.231.91.195 x91-195.uni-passau.de DE
用户代理字符串
Owler@ows.eu/1
类型
搜索引擎
首次出现
2023-07-12 21:09:42
最后出现
2024-01-24 11:20:22
遵循robots.txt
IP地址
8
来源
IP地址 服务器名称 所属国家
132.231.91.195 x91-195.uni-passau.de DE
132.231.12.69 birke.dimis.fim.uni-passau.de DE
138.246.236.155 vm-138-246-236-155.cloud.mwn.de DE
138.246.238.87 vm-138-246-238-87.cloud.mwn.de DE
138.246.237.240 vm-138-246-237-240.cloud.mwn.de DE
138.246.237.125 vm-138-246-237-125.cloud.mwn.de DE
52.71.252.250 ec2-52-71-252-250.compute-1.amazonaws.com US
195.113.175.60 ? CZ
用户代理字符串
OWLer/0.1 (built with StormCrawler; https://ows.eu/owler; owl@ow-s.eu)
类型
搜索引擎
首次出现
2023-02-23 17:00:24
最后出现
2023-07-04 13:01:35
遵循robots.txt
IP地址
6
来源
IP地址 服务器名称 所属国家
132.231.12.69 birke.dimis.fim.uni-passau.de DE
132.231.202.141 ? DE
132.231.207.99 ? DE
138.246.236.155 vm-138-246-236-155.cloud.mwn.de DE
132.231.91.195 x91-195.uni-passau.de DE
195.113.175.41 195.113.175.41 CZ

OWLer  – OpenWebSearch 的网络爬虫 – 是一个友好的浏览器,严格遵循 robots.txt 协议,确保合法且尊重的在线爬行。由于我们正处于开拓阶段,在此过程中可能会出现一两次小问题,对于任何潜在的不便,我们提前表示歉意。我们感谢您的理解,并随时欢迎反馈。

OWLer 使用 OpenWebSearch 的网络爬虫的两个主要版本:Experimental version 和 Version 1。这两个版本都是基于强大的 Apache Storm 框架StormCrawler 技术构建的,但它们具有不同的目标和功能。这是一个简短的比较:

实验版

这个版本是 OpenWebSearch 创新的游乐场。OpenWebSearch 主要用它来测试各种拓扑和配置,然后再在 OpenWebSearch 的主要爬虫版本中实现它们。

  • 拓扑:在 Apache Storm 的上下文中,拓扑定义了计算中的数据流或数据转换。它本质上是处理逻辑的映射。OpenWebSearch 的实验爬虫测试了喷口(数据源)和螺栓(处理单元)的不同排列,以找到最有效的拓扑。
  • 配置:此版本还允许 OpenWebSearch 尝试不同的设置,以最大限度地提高爬虫的效率和有效性。例如,OpenWebSearch 可能会测试不同的礼貌策略、爬行速度或处理各种数据类型的方法。

版本1

这是 OpenWebSearch 网络爬虫的当前主要版本。它包括实验版本中所有稳定且经过测试的功能,这些功能已被证明可以提高爬虫的性能。

  • 稳定可靠:经过实验版本的广泛测试,通过 OpenWebSearch 严格的质量和性能标准的功能和配置已进入该版本。
  • 专注于性能:与专为测试而设计的实验版本不同,版本 1 针对性能进行了优化。它旨在有效地对网络进行索引,并为开放网络索引项目提供有用的最新数据。

OpenWebSearch 的网络爬虫程序的第二个版本计划于明年发布,将继续这一创新、测试和实施周期,以确保 OpenWebSearch 索引工作的持续改进。

您可以随时了解 OpenWebSearch 的最新进展,并了解有关 OpenWebSearch 的爬虫版本的更多信息:  https://opencode.it4i.eu/openwebsearcheu-public/owler。如果您还有任何疑问,请随时与 OpenWebSearch 联系。

您对自己网站的控制权至关重要。如果您希望阻止 OpenWebSearch.eu 的网络爬虫访问您的网站,可以通过更新网站的 robots.txt 文件来实现。只需添加 OpenWebSearch.eu 的用户代理标识符即可。OpenWebSearch.eu 当前的用户代理标识符是 Owler@ows.eu/1(代表主爬虫)和 Owler@ows.eu/X(代表实验爬虫),OpenWebSearch.eu 计划推出第二版,标识符是 Owler@ows.eu/2。为防止未来版本访问您的网站,只需在文件中添加 Owler@ows.eu/1、Owler@ows.eu/2 和 Owler@ows.eu/X 即可。

请按照以下步骤进行操作:

更新 robots.txt 文件的指导原则

在您的 robots.txt 文件中添加我们的用户代理标识符是控制 OpenWebSearch 的网络爬虫访问您的网站的一种简单而有效的方法。以下是如何操作的分步指南:

1. 访问您网站的 robots.txt 文件

该文件通常位于您网站的根目录下。例如,如果您的网站是 www.example.com,您可以在以下网址找到 robots.txt 文件

www.example.com/robots.txt.

2. 编辑您的 robots.txt 文件

用文本编辑器打开文件。它可以是任何可以查看和编辑文本文件的程序 – Windows 上的记事本、macOS 上的 TextEdit 或 Sublime Text 或 Visual Studio Code 等专用代码编辑器。

3. 添加 OpenWebSearch 的用户代理标识符

要阻止 OpenWebSearch 当前的网络爬虫(版本 1),请在 robots.txt 文件中添加以下行:

User-agent: Owler@ows.eu/1
Disallow: /

要阻止 OpenWebSearch 的实验性网络爬虫,请在 robots.txt 文件中添加以下几行:

User-agent: Owler@ows.eu/X
Disallow: /

要同时阻止 OpenWebSearch 计划中的第 2 版网络爬虫,请添加以下几行:

User-agent: Owler@ows.eu/2
Disallow: /

要阻止 OpenWebSearch 的网络爬虫的所有未来版本,请添加以下几行:

User-agent: Owler@ows.eu/X
Disallow: /
User-agent: Owler@ows.eu/1
Disallow: /
User-agent: Owler@ows.eu/2
Disallow: /

4. 保存更改

添加完这些行之后,保存 robots.txt 文件,必要时将其上传回网站根目录。

切记:Disallow:/ “行告诉指定的用户代理不要抓取网站上的任何页面。如果只想阻止某些页面,可以指定这些页面而不用”/”。例如,” Disallow:/private“将阻止爬虫访问网站上包含 www.example.com/private 的任何页面。

如需进一步说明,请随时查阅 OpenWebSearch 的 GitLab 代码库。如果您有其他问题或需要帮助,请随时联系OpenWebSearch。

常见问题

FAQs
查看更多 >