CLARIN bot（MaCoCu）

基本資訊

CLARIN bot的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲，可能存在資訊不明的情況。

蜘蛛/爬蟲名稱: CLARIN bot

型別: 其他

開發商: CLARIN.SI

當前狀態: 活動

使用者代理

關於CLARIN bot蜘蛛或者爬蟲的使用者代理字串，IP地址和伺服器，所在地等資訊如下表格所示：

使用者代理字串: Mozilla/5.0 (compatible; CLASSLA-web; +https://www.clarin.si/info/classla-web-crawler/)

首次出現: 2024-03-06 14:22:23

最後出現: 2024-08-10 06:01:10

遵循robots.txt: 未知

來源

IP地址(2)	伺服器名稱	所屬國家
77.240.183.233	toad6.sketchengine.eu	CZ
95.87.154.11	macocu-crawl1.ijs.si	?

使用者代理字串: Mozilla/5.0 (compatible; MaCoCu; +https://www.clarin.si/info/macocu-massive-collection-and-curation-of-monolingual-and-bilingual-data/)

首次出現: 2021-07-26 18:18:53

最後出現: 2023-03-02 14:31:44

遵循robots.txt: 未知

來源

IP地址(2)	伺服器名稱	所屬國家
95.87.154.12	macocu-crawl2.ijs.si	SI
95.87.154.11	macocu-crawl1.ijs.si	SI

訪問控制

瞭解如何控制CLARIN bot訪問許可權，避免CLARIN bot抓取行為不當。

是否攔截CLARIN bot？

對於未知蜘蛛或者爬蟲。它的用途對網站來說可能是好的，也可能是壞的，這取決於它是什麼。所以說，這需要站長進一步分析判斷這些尚不明確的爬蟲行為，再作最終決定。但，根據以往的經驗，未宣告行為目的及未命名的蜘蛛爬蟲，通常都有不可告人的祕密，我們理應對其行為進行控制，比如攔截。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 CLARIN bot 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛，以檢查它是否真正遵循這些規則。

# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: CLARIN bot
Disallow: /

您無需手動執行此操作，可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

MaCoCu

MaCoCu是一個由CEF資助的專案，目的是收集、整理和豐富歐盟成員國和候選國的12種資源不足的語言在網際網路上的單語和平行資料。阿爾巴尼亞語、波斯尼亞語、保加利亞語、克羅埃西亞語、希臘語、冰島語、馬其頓語、馬耳他語、黑山語、塞爾維亞語、斯洛維尼亞語和土耳其語。單語資料的收集是由斯洛維尼亞盧布林雅那的Jožef Stefan研究所進行。