OpenWebSearch.eu crawler

OpenWebSearch.eu crawler蜘蛛/爬蟲屬於搜尋引擎型別,由OpenWebSearch.EU開發執行。您可以繼續閱讀下方資訊,以深入瞭解OpenWebSearch.eu crawler基本資訊,使用者代理和訪問控制等。

基本資訊

OpenWebSearch.eu crawler的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
OpenWebSearch.eu crawler
型別
搜尋引擎
開發商
OpenWebSearch.EU
當前狀態
活動

使用者代理

關於OpenWebSearch.eu crawler蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
Owler
使用者代理字串
Owler <ows.eu/owler>
首次出現
2024-11-18 10:41:07
最後出現
2024-11-23 19:03:20
遵循robots.txt
未知
來源
IP地址(5) 伺服器名稱 所屬國家
195.113.175.60 ? CZ
138.246.237.240 vm-138-246-237-240.cloud.mwn.de DE
138.246.238.87 vm-138-246-238-87.cloud.mwn.de DE
138.246.237.125 vm-138-246-237-125.cloud.mwn.de DE
195.113.175.51 ? ?
195.148.31.250 vm2016.kaj.pouta.csc.fi FI
138.246.237.69 vm-138-246-237-69.cloud.mwn.de DE
138.246.238.134 vm-138-246-238-134.cloud.mwn.de DE
195.148.31.234 vm2000.kaj.pouta.csc.fi FI
128.214.253.12 vm3811.kaj.pouta.csc.fi FI
195.148.30.224 vm1734.kaj.pouta.csc.fi FI
128.214.255.2 vm4313.kaj.pouta.csc.fi FI
128.214.252.102 vm3645.kaj.pouta.csc.fi FI
195.148.30.112 vm1622.kaj.pouta.csc.fi FI
使用者代理字串
Owler@ows.eu/1
首次出現
2023-07-12 21:09:42
最後出現
2024-02-04 22:21:27
遵循robots.txt
未知
來源
IP地址(8) 伺服器名稱 所屬國家
195.113.175.60 ? CZ
138.246.238.87 vm-138-246-238-87.cloud.mwn.de DE
138.246.237.240 vm-138-246-237-240.cloud.mwn.de DE
52.71.252.250 ec2-52-71-252-250.compute-1.amazonaws.com US
132.231.12.69 birke.dimis.fim.uni-passau.de DE
138.246.237.125 vm-138-246-237-125.cloud.mwn.de DE
138.246.236.155 vm-138-246-236-155.cloud.mwn.de DE
132.231.91.195 x91-195.uni-passau.de DE
使用者代理字串
Owler@ows.eu/1
首次出現
2023-07-12 21:09:42
最後出現
2024-01-24 11:20:22
遵循robots.txt
未知
來源
IP地址(8) 伺服器名稱 所屬國家
132.231.91.195 x91-195.uni-passau.de DE
132.231.12.69 birke.dimis.fim.uni-passau.de DE
138.246.236.155 vm-138-246-236-155.cloud.mwn.de DE
138.246.238.87 vm-138-246-238-87.cloud.mwn.de DE
138.246.237.240 vm-138-246-237-240.cloud.mwn.de DE
138.246.237.125 vm-138-246-237-125.cloud.mwn.de DE
52.71.252.250 ec2-52-71-252-250.compute-1.amazonaws.com US
195.113.175.60 ? CZ
使用者代理字串
OWLer/0.1 (built with StormCrawler; https://ows.eu/owler; owl@ow-s.eu)
首次出現
2023-02-23 17:00:24
最後出現
2023-07-04 13:01:35
遵循robots.txt
未知
來源
IP地址(6) 伺服器名稱 所屬國家
132.231.12.69 birke.dimis.fim.uni-passau.de DE
132.231.202.141 ? DE
132.231.207.99 ? DE
138.246.236.155 vm-138-246-236-155.cloud.mwn.de DE
132.231.91.195 x91-195.uni-passau.de DE
195.113.175.41 195.113.175.41 CZ

訪問控制

瞭解如何控制OpenWebSearch.eu crawler訪問許可權,避免OpenWebSearch.eu crawler抓取行為不當。

是否攔截OpenWebSearch.eu crawler?

一般不要攔截。搜尋引擎爬蟲為搜尋引擎提供動力,是使用者發現您網站的有效途徑。事實上,攔截搜尋引擎爬蟲可能會嚴重減少網站的自然流量。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 OpenWebSearch.eu crawler 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: OpenWebSearch.eu crawler
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: OpenWebSearch.eu crawler Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: OpenWebSearch.eu crawler
Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

OWLer  – OpenWebSearch 的網路爬蟲 – 是一個友好的瀏覽器,嚴格遵循 robots.txt 協議,確保合法且尊重的線上爬行。由於我們正處於開拓階段,在此過程中可能會出現一兩次小問題,對於任何潛在的不便,我們提前表示歉意。我們感謝您的理解,並隨時歡迎反饋。

OWLer 使用 OpenWebSearch 的網路爬蟲的兩個主要版本:Experimental version 和 Version 1。這兩個版本都是基於強大的 Apache Storm 框架StormCrawler 技術構建的,但它們具有不同的目標和功能。這是一個簡短的比較:

實驗版

這個版本是 OpenWebSearch 創新的遊樂場。OpenWebSearch 主要用它來測試各種拓撲和配置,然後再在 OpenWebSearch 的主要爬蟲版本中實現它們。

  • 拓撲:在 Apache Storm 的上下文中,拓撲定義了計算中的資料流或資料轉換。它本質上是處理邏輯的對映。OpenWebSearch 的實驗爬蟲測試了噴口(資料來源)和螺栓(處理單元)的不同排列,以找到最有效的拓撲。
  • 配置:此版本還允許 OpenWebSearch 嘗試不同的設定,以最大限度地提高爬蟲的效率和有效性。例如,OpenWebSearch 可能會測試不同的禮貌策略、爬行速度或處理各種資料型別的方法。

版本1

這是 OpenWebSearch 網路爬蟲的當前主要版本。它包括實驗版本中所有穩定且經過測試的功能,這些功能已被證明可以提高爬蟲的效能。

  • 穩定可靠:經過實驗版本的廣泛測試,通過 OpenWebSearch 嚴格的質量和效能標準的功能和配置已進入該版本。
  • 專注於效能:與專為測試而設計的實驗版本不同,版本 1 針對效能進行了優化。它旨在有效地對網路進行索引,併為開放網路索引專案提供有用的最新資料。

OpenWebSearch 的網路爬蟲程式的第二個版本計劃於明年釋出,將繼續這一創新、測試和實施週期,以確保 OpenWebSearch 索引工作的持續改進。

您可以隨時瞭解 OpenWebSearch 的最新進展,並瞭解有關 OpenWebSearch 的爬蟲版本的更多資訊:  https://opencode.it4i.eu/openwebsearcheu-public/owler。如果您還有任何疑問,請隨時與 OpenWebSearch 聯絡。

您對自己網站的控制權至關重要。如果您希望阻止 OpenWebSearch.eu 的網路爬蟲訪問您的網站,可以通過更新網站的 robots.txt 檔案來實現。只需新增 OpenWebSearch.eu 的使用者代理識別符號即可。OpenWebSearch.eu 當前的使用者代理識別符號是 Owler@ows.eu/1(代表主爬蟲)和 Owler@ows.eu/X(代表實驗爬蟲),OpenWebSearch.eu 計劃推出第二版,識別符號是 Owler@ows.eu/2。為防止未來版本訪問您的網站,只需在檔案中新增 Owler@ows.eu/1、Owler@ows.eu/2 和 Owler@ows.eu/X 即可。

請按照以下步驟進行操作:

更新 robots.txt 檔案的指導原則

在您的 robots.txt 檔案中新增我們的使用者代理識別符號是控制 OpenWebSearch 的網路爬蟲訪問您的網站的一種簡單而有效的方法。以下是如何操作的分步指南:

1. 訪問您網站的 robots.txt 檔案

該檔案通常位於您網站的根目錄下。例如,如果您的網站是 www.example.com,您可以在以下網址找到 robots.txt 檔案

www.example.com/robots.txt.

2. 編輯您的 robots.txt 檔案

用文字編輯器開啟檔案。它可以是任何可以檢視和編輯文字檔案的程式 – Windows 上的記事本、macOS 上的 TextEdit 或 Sublime Text 或 Visual Studio Code 等專用程式碼編輯器。

3. 新增 OpenWebSearch 的使用者代理識別符號

要阻止 OpenWebSearch 當前的網路爬蟲(版本 1),請在 robots.txt 檔案中新增以下行:

User-agent: Owler@ows.eu/1
Disallow: /

要阻止 OpenWebSearch 的實驗性網路爬蟲,請在 robots.txt 檔案中新增以下幾行:

User-agent: Owler@ows.eu/X
Disallow: /

要同時阻止 OpenWebSearch 計劃中的第 2 版網路爬蟲,請新增以下幾行:

User-agent: Owler@ows.eu/2
Disallow: /

要阻止 OpenWebSearch 的網路爬蟲的所有未來版本,請新增以下幾行:

User-agent: Owler@ows.eu/X
Disallow: /
User-agent: Owler@ows.eu/1
Disallow: /
User-agent: Owler@ows.eu/2
Disallow: /

4. 儲存更改

新增完這些行之後,儲存 robots.txt 檔案,必要時將其上傳回網站根目錄。

切記:Disallow:/ “行告訴指定的使用者代理不要抓取網站上的任何頁面。如果只想阻止某些頁面,可以指定這些頁面而不用”/”。例如,” Disallow:/private“將阻止爬蟲訪問網站上包含 www.example.com/private 的任何頁面。

如需進一步說明,請隨時查閱 OpenWebSearch 的 GitLab 程式碼庫。如果您有其他問題或需要幫助,請隨時聯絡OpenWebSearch。

常見蜘蛛/爬蟲

Common Spiders
Mithril
Mithril蜘蛛/爬蟲屬於搜尋引擎型別,由University of Michigan開發執行。您可以繼續閱讀下方資訊,以深入瞭解Mithril基本資訊,使用者代理和訪問控制等。
fynd.bot crawler
fynd.bot crawler蜘蛛/爬蟲屬於搜尋引擎型別,由fynd.bot開發執行。您可以繼續閱讀下方資訊,以深入瞭解fynd.bot crawler基本資訊,使用者代理和訪問控制等。
Alibaba crawler
Alibaba crawler蜘蛛/爬蟲屬於搜尋引擎型別,由Alibaba Group開發執行。您可以繼續閱讀下方資訊,以深入瞭解Alibaba crawler基本資訊,使用者代理和訪問控制等。
Googlebot
GoogleBot蜘蛛/爬蟲屬於搜尋引擎型別,由Google Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解GoogleBot基本資訊,使用者代理和訪問控制等。
Swisscows Crawler
Swisscows Crawler蜘蛛/爬蟲屬於搜尋引擎型別,由Swisscows AG開發執行。您可以繼續閱讀下方資訊,以深入瞭解Swisscows Crawler基本資訊,使用者代理和訪問控制等。
star-finder.de Bot
star-finder.de Bot蜘蛛/爬蟲屬於搜尋引擎型別,由projektnet開發執行。您可以繼續閱讀下方資訊,以深入瞭解star-finder.de Bot基本資訊,使用者代理和訪問控制等。
SeznamBot
SeznamBot蜘蛛/爬蟲屬於搜尋引擎型別,由Seznam.cz, a.s.開發執行。您可以繼續閱讀下方資訊,以深入瞭解SeznamBot基本資訊,使用者代理和訪問控制等。
MojeekBot
MojeekBot蜘蛛/爬蟲屬於搜尋引擎型別,由Mojeek Ltd.開發執行。您可以繼續閱讀下方資訊,以深入瞭解MojeekBot基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles