CLARIN bot

CLARIN bot蜘蛛/爬蟲屬於其他型別,由CLARIN.SI開發執行。您可以繼續閱讀下方資訊,以深入瞭解CLARIN bot基本資訊,使用者代理和訪問控制等。

基本資訊

CLARIN bot的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
CLARIN bot
型別
其他
開發商
CLARIN.SI
當前狀態
活動

使用者代理

關於CLARIN bot蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
CLASSLA-web
使用者代理字串
Mozilla/5.0 (compatible; CLASSLA-web; +https://www.clarin.si/info/classla-web-crawler/)
首次出現
2024-03-06 14:22:23
最後出現
2024-08-10 06:01:10
遵循robots.txt
未知
來源
IP地址(2) 伺服器名稱 所屬國家
77.240.183.233 toad6.sketchengine.eu CZ
95.87.154.11 macocu-crawl1.ijs.si ?
使用者代理字串
Mozilla/5.0 (compatible; MaCoCu; +https://www.clarin.si/info/macocu-massive-collection-and-curation-of-monolingual-and-bilingual-data/)
首次出現
2021-07-26 18:18:53
最後出現
2023-03-02 14:31:44
遵循robots.txt
未知
來源
IP地址(2) 伺服器名稱 所屬國家
95.87.154.12 macocu-crawl2.ijs.si SI
95.87.154.11 macocu-crawl1.ijs.si SI

訪問控制

瞭解如何控制CLARIN bot訪問許可權,避免CLARIN bot抓取行為不當。

是否攔截CLARIN bot?

對於未知蜘蛛或者爬蟲。它的用途對網站來說可能是好的,也可能是壞的,這取決於它是什麼。所以說,這需要站長進一步分析判斷這些尚不明確的爬蟲行為,再作最終決定。 但,根據以往的經驗,未宣告行為目的及未命名的蜘蛛爬蟲,通常都有不可告人的祕密,我們理應對其行為進行控制,比如攔截。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 CLARIN bot 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: CLARIN bot
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: CLARIN bot Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: CLARIN bot
Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

MaCoCu

MaCoCu是一個由CEF資助的專案,目的是收集、整理和豐富歐盟成員國和候選國的12種資源不足的語言在網際網路上的單語和平行資料。阿爾巴尼亞語、波斯尼亞語、保加利亞語、克羅埃西亞語、希臘語、冰島語、馬其頓語、馬耳他語、黑山語、塞爾維亞語、斯洛維尼亞語和土耳其語。單語資料的收集是由斯洛維尼亞盧布林雅那的Jožef Stefan研究所進行。

網路抓取

我們執行一個網路爬蟲,從網路上下載文字。我們使用的軟體是SpiderLing,由捷克共和國Masaryk大學的自然語言處理中心開發。

MaCoCu對下載的資料做什麼?

MaCoCu感興趣的是語言的使用,而不是下載文字的內容。檢索到的文字將被清理,去掉重複的內容,並加上文字型別資訊的註釋。用於計算語言學研究的文字庫和用於自然語言處理任務的語言模型將利用這些資料建立。

如果我不希望我的網站被抓取怎麼辦?

MaCoCu的爬蟲程式遵守機器人排除標準。您可以通過建立robots.txt檔案,限制對您網站上部分或全部網頁的訪問。MaCoCu的爬蟲程式的使用者代理標識是MaCoCu。如果您想阻止我們的爬蟲抓取您的網站,就應該在您的 robots.txt 檔案中包括這些內容。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
User-agent: MaCoCu
Disallow: /
User-agent: MaCoCu Disallow: /
User-agent: MaCoCu
Disallow: /

請注意,爬蟲在第一次訪問您的網站時就會讀取您的 robots.txt,因此任何修改都將在爬蟲下次執行時生效,而不是立即生效。

常見蜘蛛/爬蟲

Common Spiders
Fraunhofer crawler
Fraunhofer crawler蜘蛛/爬蟲屬於其他型別,由Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Fraunhofer crawler基本資訊,使用者代理和訪問控制等。
companyspotter
companyspotter蜘蛛/爬蟲屬於其他型別,由CompanySpotter BV開發執行。您可以繼續閱讀下方資訊,以深入瞭解companyspotter基本資訊,使用者代理和訪問控制等。
DataForSeo bot
DataForSeo bot蜘蛛/爬蟲屬於其他型別,由DataForSEO OU開發執行。您可以繼續閱讀下方資訊,以深入瞭解DataForSeo bot基本資訊,使用者代理和訪問控制等。
CloudFlare crawler
CloudFlare crawler蜘蛛/爬蟲屬於其他型別,由CloudFlare, Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解CloudFlare crawler基本資訊,使用者代理和訪問控制等。
Odin
Odin蜘蛛/爬蟲屬於其他型別,由Cyble, Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Odin基本資訊,使用者代理和訪問控制等。
Chrome Privacy Preserving Prefetch Proxy
Chrome Privacy Preserving Prefetch Proxy蜘蛛/爬蟲屬於其他型別,由Google Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Chrome Privacy Preserving Prefetch Proxy基本資訊,使用者代理和訪問控制等。
EFF crawler
EFF crawler蜘蛛/爬蟲屬於其他型別,由Electronic Frontier Foundation開發執行。您可以繼續閱讀下方資訊,以深入瞭解EFF crawler基本資訊,使用者代理和訪問控制等。
Modat crawler
Modat crawler蜘蛛/爬蟲屬於其他型別,由Modat B.V.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Modat crawler基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles