OpenWebSearch.eu crawler

OpenWebSearch.eu crawler蜘蛛/爬虫属于搜索引擎类型，由OpenWebSearch.EU开发运行。您可以继续阅读下方信息，以深入了解OpenWebSearch.eu crawler基本信息，用户代理和访问控制等。

基本信息

OpenWebSearch.eu crawler的基本信息如下表。但部分不是很规范的蜘蛛和爬虫，可能存在信息不明的情况。

蜘蛛/爬虫名称: OpenWebSearch.eu crawler

类型: 搜索引擎

开发商: OpenWebSearch.EU

当前状态: 活动

用户代理

关于OpenWebSearch.eu crawler蜘蛛或者爬虫的用户代理字符串，IP地址和服务器，所在地等信息如下表格所示：

用户代理字符串: Owler <ows.eu/owler>

首次出现: 2024-11-18 10:41:07

最后出现: 2024-11-23 19:03:20

遵循robots.txt: 未知

来源

IP地址(5)	服务器名称	所属国家
195.113.175.60	?	CZ
138.246.237.240	vm-138-246-237-240.cloud.mwn.de	DE
138.246.238.87	vm-138-246-238-87.cloud.mwn.de	DE
138.246.237.125	vm-138-246-237-125.cloud.mwn.de	DE
195.113.175.51	?	?
195.148.31.250	vm2016.kaj.pouta.csc.fi	FI
138.246.237.69	vm-138-246-237-69.cloud.mwn.de	DE
138.246.238.134	vm-138-246-238-134.cloud.mwn.de	DE
195.148.31.234	vm2000.kaj.pouta.csc.fi	FI
128.214.253.12	vm3811.kaj.pouta.csc.fi	FI
195.148.30.224	vm1734.kaj.pouta.csc.fi	FI
128.214.255.2	vm4313.kaj.pouta.csc.fi	FI
128.214.252.102	vm3645.kaj.pouta.csc.fi	FI
195.148.30.112	vm1622.kaj.pouta.csc.fi	FI

用户代理字符串: Owler@ows.eu/1

首次出现: 2023-07-12 21:09:42

最后出现: 2024-02-04 22:21:27

遵循robots.txt: 未知

来源

IP地址(8)	服务器名称	所属国家
195.113.175.60	?	CZ
138.246.238.87	vm-138-246-238-87.cloud.mwn.de	DE
138.246.237.240	vm-138-246-237-240.cloud.mwn.de	DE
52.71.252.250	ec2-52-71-252-250.compute-1.amazonaws.com	US
132.231.12.69	birke.dimis.fim.uni-passau.de	DE
138.246.237.125	vm-138-246-237-125.cloud.mwn.de	DE
138.246.236.155	vm-138-246-236-155.cloud.mwn.de	DE
132.231.91.195	x91-195.uni-passau.de	DE

用户代理字符串: Owler@ows.eu/1

首次出现: 2023-07-12 21:09:42

最后出现: 2024-01-24 11:20:22

遵循robots.txt: 未知

来源

IP地址(8)	服务器名称	所属国家
132.231.91.195	x91-195.uni-passau.de	DE
132.231.12.69	birke.dimis.fim.uni-passau.de	DE
138.246.236.155	vm-138-246-236-155.cloud.mwn.de	DE
138.246.238.87	vm-138-246-238-87.cloud.mwn.de	DE
138.246.237.240	vm-138-246-237-240.cloud.mwn.de	DE
138.246.237.125	vm-138-246-237-125.cloud.mwn.de	DE
52.71.252.250	ec2-52-71-252-250.compute-1.amazonaws.com	US
195.113.175.60	?	CZ

用户代理字符串: OWLer/0.1 (built with StormCrawler; https://ows.eu/owler; owl@ow-s.eu)

首次出现: 2023-02-23 17:00:24

最后出现: 2023-07-04 13:01:35

遵循robots.txt: 未知

来源

IP地址(6)	服务器名称	所属国家
132.231.12.69	birke.dimis.fim.uni-passau.de	DE
132.231.202.141	?	DE
132.231.207.99	?	DE
138.246.236.155	vm-138-246-236-155.cloud.mwn.de	DE
132.231.91.195	x91-195.uni-passau.de	DE
195.113.175.41	195.113.175.41	CZ

访问控制

了解如何控制OpenWebSearch.eu crawler访问权限，避免OpenWebSearch.eu crawler抓取行为不当。

是否拦截OpenWebSearch.eu crawler？

一般不要拦截。搜索引擎爬虫为搜索引擎提供动力，是用户发现您网站的有效途径。事实上，拦截搜索引擎爬虫可能会严重减少网站的自然流量。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 OpenWebSearch.eu crawler 或限制其访问权限。我们建议安装 Spider Analyser 插件，以检查它是否真正遵循这些规则。

# robots.txt

# 下列代码一般情况可以拦截该代理

User-agent: OpenWebSearch.eu crawler

Disallow: /

# robots.txt # 下列代码一般情况可以拦截该代理 User-agent: OpenWebSearch.eu crawler Disallow: /

# robots.txt
# 下列代码一般情况可以拦截该代理
User-agent: OpenWebSearch.eu crawler
Disallow: /

您无需手动执行此操作，可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

OWLer – OpenWebSearch 的网络爬虫 – 是一个友好的浏览器，严格遵循 robots.txt 协议，确保合法且尊重的在线爬行。由于我们正处于开拓阶段，在此过程中可能会出现一两次小问题，对于任何潜在的不便，我们提前表示歉意。我们感谢您的理解，并随时欢迎反馈。

OWLer 使用 OpenWebSearch 的网络爬虫的两个主要版本：Experimental version 和 Version 1。这两个版本都是基于强大的 Apache Storm 框架和 StormCrawler 技术构建的，但它们具有不同的目标和功能。这是一个简短的比较：

实验版

这个版本是 OpenWebSearch 创新的游乐场。OpenWebSearch 主要用它来测试各种拓扑和配置，然后再在 OpenWebSearch 的主要爬虫版本中实现它们。

拓扑：在 Apache Storm 的上下文中，拓扑定义了计算中的数据流或数据转换。它本质上是处理逻辑的映射。OpenWebSearch 的实验爬虫测试了喷口（数据源）和螺栓（处理单元）的不同排列，以找到最有效的拓扑。
配置：此版本还允许 OpenWebSearch 尝试不同的设置，以最大限度地提高爬虫的效率和有效性。例如，OpenWebSearch 可能会测试不同的礼貌策略、爬行速度或处理各种数据类型的方法。

版本1

这是 OpenWebSearch 网络爬虫的当前主要版本。它包括实验版本中所有稳定且经过测试的功能，这些功能已被证明可以提高爬虫的性能。

稳定可靠：经过实验版本的广泛测试，通过 OpenWebSearch 严格的质量和性能标准的功能和配置已进入该版本。
专注于性能：与专为测试而设计的实验版本不同，版本 1 针对性能进行了优化。它旨在有效地对网络进行索引，并为开放网络索引项目提供有用的最新数据。

OpenWebSearch 的网络爬虫程序的第二个版本计划于明年发布，将继续这一创新、测试和实施周期，以确保 OpenWebSearch 索引工作的持续改进。

您可以随时了解 OpenWebSearch 的最新进展，并了解有关 OpenWebSearch 的爬虫版本的更多信息： https://opencode.it4i.eu/openwebsearcheu-public/owler。如果您还有任何疑问，请随时与 OpenWebSearch 联系。

您对自己网站的控制权至关重要。如果您希望阻止 OpenWebSearch.eu 的网络爬虫访问您的网站，可以通过更新网站的 robots.txt 文件来实现。只需添加 OpenWebSearch.eu 的用户代理标识符即可。OpenWebSearch.eu 当前的用户代理标识符是 Owler@ows.eu/1（代表主爬虫）和 Owler@ows.eu/X（代表实验爬虫），OpenWebSearch.eu 计划推出第二版，标识符是 Owler@ows.eu/2。为防止未来版本访问您的网站，只需在文件中添加 Owler@ows.eu/1、Owler@ows.eu/2 和 Owler@ows.eu/X 即可。

请按照以下步骤进行操作：

更新 robots.txt 文件的指导原则

在您的 robots.txt 文件中添加我们的用户代理标识符是控制 OpenWebSearch 的网络爬虫访问您的网站的一种简单而有效的方法。以下是如何操作的分步指南：

1. 访问您网站的 robots.txt 文件

该文件通常位于您网站的根目录下。例如，如果您的网站是 www.example.com，您可以在以下网址找到 robots.txt 文件

www.example.com/robots.txt.

2. 编辑您的 robots.txt 文件

用文本编辑器打开文件。它可以是任何可以查看和编辑文本文件的程序 – Windows 上的记事本、macOS 上的 TextEdit 或 Sublime Text 或 Visual Studio Code 等专用代码编辑器。

3. 添加 OpenWebSearch 的用户代理标识符

要阻止 OpenWebSearch 当前的网络爬虫（版本 1），请在 robots.txt 文件中添加以下行：

User-agent: Owler@ows.eu/1
Disallow: /

要阻止 OpenWebSearch 的实验性网络爬虫，请在 robots.txt 文件中添加以下几行：

User-agent: Owler@ows.eu/X
Disallow: /

要同时阻止 OpenWebSearch 计划中的第 2 版网络爬虫，请添加以下几行：

User-agent: Owler@ows.eu/2
Disallow: /

要阻止 OpenWebSearch 的网络爬虫的所有未来版本，请添加以下几行：

User-agent: Owler@ows.eu/X
Disallow: /
User-agent: Owler@ows.eu/1
Disallow: /
User-agent: Owler@ows.eu/2
Disallow: /

4. 保存更改

添加完这些行之后，保存 robots.txt 文件，必要时将其上传回网站根目录。

切记：” Disallow:/ “行告诉指定的用户代理不要抓取网站上的任何页面。如果只想阻止某些页面，可以指定这些页面而不用”/”。例如，” Disallow:/private“将阻止爬虫访问网站上包含 www.example.com/private 的任何页面。

如需进一步说明，请随时查阅 OpenWebSearch 的 GitLab 代码库。如果您有其他问题或需要帮助，请随时联系OpenWebSearch。

站长工具

我们为站长量身定做的高效工具集。

查看全部工具

常见蜘蛛/爬虫

Common Spiders

Mithril

Mithril蜘蛛/爬虫属于搜索引擎类型，由University of Michigan开发运行。您可以继续阅读下方信息，以深入了解Mithril基本信息，用户代理和访问控制等。

fynd.bot crawler

fynd.bot crawler蜘蛛/爬虫属于搜索引擎类型，由fynd.bot开发运行。您可以继续阅读下方信息，以深入了解fynd.bot crawler基本信息，用户代理和访问控制等。

Alibaba crawler

Alibaba crawler蜘蛛/爬虫属于搜索引擎类型，由Alibaba Group开发运行。您可以继续阅读下方信息，以深入了解Alibaba crawler基本信息，用户代理和访问控制等。

Googlebot

GoogleBot蜘蛛/爬虫属于搜索引擎类型，由Google Inc.开发运行。您可以继续阅读下方信息，以深入了解GoogleBot基本信息，用户代理和访问控制等。

Swisscows Crawler

Swisscows Crawler蜘蛛/爬虫属于搜索引擎类型，由Swisscows AG开发运行。您可以继续阅读下方信息，以深入了解Swisscows Crawler基本信息，用户代理和访问控制等。

star-finder.de Bot

star-finder.de Bot蜘蛛/爬虫属于搜索引擎类型，由projektnet开发运行。您可以继续阅读下方信息，以深入了解star-finder.de Bot基本信息，用户代理和访问控制等。

SeznamBot

SeznamBot蜘蛛/爬虫属于搜索引擎类型，由Seznam.cz, a.s.开发运行。您可以继续阅读下方信息，以深入了解SeznamBot基本信息，用户代理和访问控制等。

MojeekBot

MojeekBot蜘蛛/爬虫属于搜索引擎类型，由Mojeek Ltd.开发运行。您可以继续阅读下方信息，以深入了解MojeekBot基本信息，用户代理和访问控制等。

如何做搜索引擎蜘蛛日志分析

搜索引擎蜘蛛日志文件是一种非常强大但未被站长充分利用的文件，分析它可以获取有关每个搜索引擎如何爬取网站内容的相关信息点，及查看搜索引擎蜘蛛在一段时间内的行为。

什么是抓取预算（Crawl Budget）及如何最大化其利用价值

抓取预算（Crawl Budget），您又可以将之称为抓取频率、抓取量。这个量一般是由搜索引擎蜘蛛根据网站的质量度和权重给域名分配的。理解抓取预算的定义，重要性及最大化其效率，这有利于网站的索引、排名。

怎样才算有利于SEO的网站结构

众所周知，扁平且层级不超过三级的网站结构是最有利于搜索引擎蜘蛛爬取的。显浅的一句看似易懂但如深入，又未必是那么容易理解。下面我们将深入了解网站结构的定义，重要性及实践，以便于各位技术开发、站长和SEOer在未来的网站开发及运营中应用。

为什么要控制Googlebot抓取速度？

在本文中，我们将了解您为什么要控制Googlebot以及如何控制Googlebot和其他搜索引擎爬虫的抓取速度。

如何拦截Google和Bing访问您的网站？

在本文中，我们将解释如何屏蔽Googlebot和Bingbot，屏蔽爬虫后会发生什么以及出现爬取问题的常见原因。

Bing网站管理员工具Bingbot网站爬取频率设置

Bing网站管理员工具中的爬网空间功能允许网站管理员控制Bingbot抓取您的网站的速率。当您的网站上有访问者以适当地管理带宽时，需要进行爬网控制以限制Bingbot和Googlebot等搜索引擎蜘蛛的活动。

WordPress拦截IP地址的6种方法

当网站规模扩大时，您需要采取某些措施来限制来自评论垃圾邮件发送者、无效机器人和人类攻击者的流量。这对于保护您的服务器资源可用于真实用户以及您支付托管费用以获得真实访问者至关重要。在本文中，我们将解释在WordPress中拦截IP地址的6种方法。

如何禁止搜索引擎索引WordPress网站

您可能想要隐藏站点上的内容的原因有很多，但依靠“建议搜索引擎不索引本站点”选项并不是确保此类内容不被看到的最佳方法。除非您想在网络上隐藏您的整个网站，否则永远不要单击此选项，因为如果不小心切换，它会对您的SEO造成巨大损害。

OpenWebSearch.eu crawler

基本信息

用户代理

访问控制

是否拦截OpenWebSearch.eu crawler？

通过Robots.txt拦截

更多信息

实验版

版本1

更新 robots.txt 文件的指导原则

站长工具

常见蜘蛛/爬虫

相关文章