

IP地址(2) | 伺服器名稱 | 所屬國家 |
---|---|---|
77.240.183.233 | toad6.sketchengine.eu | CZ |
95.87.154.11 | macocu-crawl1.ijs.si | ? |
IP地址(2) | 伺服器名稱 | 所屬國家 |
---|---|---|
95.87.154.12 | macocu-crawl2.ijs.si | SI |
95.87.154.11 | macocu-crawl1.ijs.si | SI |
對於未知蜘蛛或者爬蟲。它的用途對網站來說可能是好的,也可能是壞的,這取決於它是什麼。所以說,這需要站長進一步分析判斷這些尚不明確的爬蟲行為,再作最終決定。 但,根據以往的經驗,未宣告行為目的及未命名的蜘蛛爬蟲,通常都有不可告人的祕密,我們理應對其行為進行控制,比如攔截。
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 CLARIN bot 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: CLARIN bot Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。
MaCoCu是一個由CEF資助的專案,目的是收集、整理和豐富歐盟成員國和候選國的12種資源不足的語言在網際網路上的單語和平行資料。阿爾巴尼亞語、波斯尼亞語、保加利亞語、克羅埃西亞語、希臘語、冰島語、馬其頓語、馬耳他語、黑山語、塞爾維亞語、斯洛維尼亞語和土耳其語。單語資料的收集是由斯洛維尼亞盧布林雅那的Jožef Stefan研究所進行。
我們執行一個網路爬蟲,從網路上下載文字。我們使用的軟體是SpiderLing,由捷克共和國Masaryk大學的自然語言處理中心開發。
MaCoCu感興趣的是語言的使用,而不是下載文字的內容。檢索到的文字將被清理,去掉重複的內容,並加上文字型別資訊的註釋。用於計算語言學研究的文字庫和用於自然語言處理任務的語言模型將利用這些資料建立。
MaCoCu的爬蟲程式遵守機器人排除標準。您可以通過建立robots.txt檔案,限制對您網站上部分或全部網頁的訪問。MaCoCu的爬蟲程式的使用者代理標識是MaCoCu。如果您想阻止我們的爬蟲抓取您的網站,就應該在您的 robots.txt 檔案中包括這些內容。
User-agent: MaCoCu Disallow: /
請注意,爬蟲在第一次訪問您的網站時就會讀取您的 robots.txt,因此任何修改都將在爬蟲下次執行時生效,而不是立即生效。