Wikipedia crawler

Wikipedia crawler蜘蛛/爬蟲屬於連結檢測型別,由Wikimedia Foundation Inc開發執行。您可以繼續閱讀下方資訊,以深入瞭解Wikipedia crawler基本資訊,使用者代理和訪問控制等。

基本資訊

Wikipedia crawler的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
Wikipedia crawler
型別
連結檢測
開發商
Wikimedia Foundation Inc
當前狀態
活動

使用者代理

關於Wikipedia crawler蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
IABot/2.0
使用者代理字串
IABot/2.0 (+https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins) (Checking if link from Wikipedia is broken and needs removal)
首次出現
2019-09-21 07:32:50
最後出現
2024-12-10 05:45:33
遵循robots.txt
未知
來源
IP地址(3) 伺服器名稱 所屬國家
185.15.56.22 instance-cyberbot-exec-iabot-01.cyberbot.wmflabs.org US
185.15.56.29 instance-cyberbot-exec-iabot-02.cyberbot.wmflabs.org NL
185.15.56.1 nat.cloudgw.eqiad1.wikimediacloud.org US
使用者代理字串
IABot: Checking if link from Wikipedia is broken and needs removal - See https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins
首次出現
2019-04-19 05:00:12
最後出現
2019-09-09 08:13:37
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
185.15.56.22 instance-cyberbot-exec-iabot-01.cyberbot.wmflabs.org US
使用者代理字串
COIBotParser/2.0
首次出現
2019-08-09 09:08:31
最後出現
2019-08-09 09:08:31
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
185.15.56.1 nat.openstack.eqiad1.wikimediacloud.org NL
使用者代理字串
German Wikipedia Broken Weblinks Bot; contact: gifti@tools.wmflabs.org
首次出現
2015-02-21 09:58:19
最後出現
2017-02-14 08:13:11
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
208.80.155.255 internal-server-nat.wmflabs.org US

訪問控制

瞭解如何控制Wikipedia crawler訪問許可權,避免Wikipedia crawler抓取行為不當。

是否攔截Wikipedia crawler?

通常不需要。連結檢測類爬蟲的爬取行為一般也不是自發性的,僅當認為提交網站連結檢測請求,這些爬蟲才會對網站的連結進行抓取和檢測。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 Wikipedia crawler 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: Wikipedia crawler
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: Wikipedia crawler Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: Wikipedia crawler
Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

Wikipedia作為全球最大最受歡迎的百科知識門戶,其對網際網路資訊的採集整理和優化任務巨大。Wikipedia與眾多搜尋引擎一樣,也會出動爬蟲對網際網路資訊進行採集,篩選及更新等。

但不同的是Wikipedia爬蟲不固定為其中的幾個,而是存在2000+不同名稱不同作用的爬蟲機器人,您可以通過官方連結檢視大部分的Wikipedia爬蟲機器人資訊。

 

維基百科爬蟲列表

這是一個按名稱列出的所有維基百科機器人的完整列表,無論其狀態、目的或方法如何。另請參見Special:ListUsers/bot

關於InternetArchiveBot

InternetArchiveBot是一個先進的機器人,可以識別和替換損壞的外部連結。InternetArchiveBot也對參考文獻進行了其他的改進,包括填寫裸露的參考文獻模板,並在適當的地方新增資源的連結。InternetArchiveBot監控每個維基媒體維基的新外鏈,並在50多個維基媒體維基上積極進行修復。這個機器人是作為網際網路檔案館的一項服務,與維基媒體社羣合作運營的。

由於志願者的翻譯,InternetArchiveBot的管理介面有許多語言版本。 如果您意願,也可以訪問 translatewiki.net 來幫助。

InternetArchiveBot如何運作

啟動和停止機器人

  • 阻止機器人是不需要停止它的。
  • 點選 “連結“。確保從頂部的下拉選單中選擇正確的維基。
  • 如果頁面顯示:”This wiki is: Enabled”
    禁用機器人,請寫出應該禁用機器人的原因,然後點選 “禁用”。
    在User talk:InternetArchiveBot上留言,解釋你為什麼禁用機器人。包括已經進行的不良編輯。
  • 如果頁面顯示:”This wiki is: Disabled”
    啟用機器人,請寫出應該啟用機器人的原因,然後點選 “Enable”。
    首先,確保機器人有在你的維基上執行的共識。遵循你的維基的機器人政策
    如果機器人是由於錯誤的編輯而被禁用,請首先確保這些錯誤已經被修復。
  • 如果機器人被封鎖了,請立即在User talk:InternetArchiveBot留言。
  • 即使機器人沒有在某個維基上執行,網際網路檔案館也會為每個維基媒體維基新增的幾乎所有新的外部連結建立檔案,而且自2013年以來一直如此。如果一個機器人在維基上被阻止或禁用,它也不會停止這項工作。
    檢視執行頁面

配置機器人

機器人的行為可以被改變以適應維基的需要。這可以通過在介面的配置頁面上更新數值來實現。點選下面的連結來訪問配置頁面。確保從頂部的下拉選單中選擇正確的維基。只有管理員可以編輯特定維基的配置。

檢視配置頁面

請求特定的文章

你可以使用 “分析頁面“介面來修復死連結,或在特定頁面上為所有連結新增存檔連結。使用此工具進行的編輯將歸於你。請確保從頂部的下拉選單中選擇正確的維基。

你也可以排隊讓機器人在多個頁面上執行。這些文章將被新增到InternetArchiveBot的編輯佇列中。

關於InternetArchiveBot的常見問題

問:為什麼機器人會向我的網站發出請求?

答:InternetArchiveBot是維基百科上一個非常依賴的工具。該機器人定期檢查維基百科上的文章,並修復、替換或刪除中斷的連結。要做到這一點,它需要對URL進行ping,以檢查它是否在工作。它通常通過傳送HEAD請求來實現這一目的,以減少伺服器的壓力。在某些情況下,如果HEAD請求失敗,它可能會嘗試做一個完整的GET請求。

問:我的網站上有一個robots.txt,但InternetArchiveBot卻忽略了它。為什麼它不尊重robots.txt?

答:這是因為InternetArchiveBot實際上並沒有抓取你的網站內容。該網站的內容沒有被儲存在任何地方。該機器人所做的只是評估該URL是否真的是一個提供內容的工作URL。它訪問該URL只是因為它被用作維基百科上的一個來源。你會注意到,IABot在大多數情況下都在發出HEAD請求。如果該來源被從維基百科上刪除,或被發現是壞的,IABot將停止向其發出請求。

問:為什麼機器人會同時發出許多請求?

答:InternetArchiveBot以每篇文章為基礎來測試連結。這意味著它每次都會瀏覽文章,並測試文章中發現的所有連結。如果您的網站在某篇文章中被大量使用,InternetArchiveBot將向所有這些URL發出請求。然而,IABot將在前往同一網站的請求之間等待1秒。

問:這些測試之間是否有一個等待期?

答:是的,如果URL被認為是活的,它將在再次測試特定URL之前保持至少1周的等待時間。如果發現該URL是死的,它將再測試2次,每次測試之間至少等待3天,然後再宣佈它被破壞。如果機器人在剩下的2次測試中發現該URL是活的,那麼1周的等待時間將被重新恢復。一旦機器人宣佈一個連結被破壞,它將停止對該URL的進一步測試。

問:我可以阻止機器人嗎?

答:你可以,但這是不可取的。阻止機器人可能會導致機器人認定你的整個網站都是壞的,並且在維基百科上會被這樣對待。建議你聯絡User talk:InternetArchiveBot並要求他們將你的域名列入白名單。一旦列入白名單,機器人就會停止向你的域名發出請求。

問:如果我阻止機器人,會發生什麼?

答:InternetArchiveBot會盡力確定你的網站是否癱瘓了,或者它被阻止了訪問。如果它確定它已被封鎖,它將把你的域名列入白名單,並自動停止向它發出請求。如果它不能檢測到它已被封鎖,IABot最終將開始把你的域名中的所有URL視為壞的,並可能從維基百科中替換或刪除它們。

問:如果一個URL或一個網站被認為是不正常的,會發生什麼?

答:InternetArchiveBot將停止向它認為是壞掉的URL發出請求,並開始從維基百科上替換或刪除這些URL。如果被替換,它通常會用Wayback Machine捕獲的存檔副本來替換。

問:我們最近重組了我們的網站,但是InternetArchiveBot仍然在向舊的URLs發出請求。我們該怎麼做?

答:有兩個選擇。最簡單的辦法是讓所有舊的URL使用302程式碼重定向到他們新的正確的URL。IABot跟隨重定向,並會自動測試新的URL。第二個選擇是聯絡User talk:InternetArchiveBot並告知他們新的URL結構和如何正確轉換。

問:如果我有更多的問題,我該怎麼做?

答:建議你聯絡User talk:InternetArchiveBot並在他們的談話頁面上留言。要做到這一點,請點選頁面右上方的New Section標籤。

常見蜘蛛/爬蟲

Common Spiders
LinkChecker Pro bot
LinkChecker Pro bot蜘蛛/爬蟲屬於連結檢測型別,由Local Profy LLC開發執行。您可以繼續閱讀下方資訊,以深入瞭解LinkChecker Pro bot基本資訊,使用者代理和訪問控制等。
Online Domain Tools
Online Domain Tools蜘蛛/爬蟲屬於監控型別,由AITIS s.r.o.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Online Domain Tools基本資訊,使用者代理和訪問控制等。
UASlinkChecker
UASlinkChecker蜘蛛/爬蟲屬於連結檢測型別,由Udger s.r.o.開發執行。您可以繼續閱讀下方資訊,以深入瞭解UASlinkChecker基本資訊,使用者代理和訪問控制等。
WPMU DEV crawler
WPMU DEV crawler蜘蛛/爬蟲屬於連結檢測型別,由Incsub, LLC開發執行。您可以繼續閱讀下方資訊,以深入瞭解WPMU DEV crawler基本資訊,使用者代理和訪問控制等。
Wikipedia crawler
Wikipedia crawler蜘蛛/爬蟲屬於連結檢測型別,由Wikimedia Foundation Inc開發執行。您可以繼續閱讀下方資訊,以深入瞭解Wikipedia crawler基本資訊,使用者代理和訪問控制等。
Dead Link Checker
Dead Link Checker蜘蛛/爬蟲屬於連結檢測型別,由Slogical Corporation開發執行。您可以繼續閱讀下方資訊,以深入瞭解Dead Link Checker基本資訊,使用者代理和訪問控制等。
Urlcheckr
Urlcheckr蜘蛛/爬蟲屬於連結檢測型別,由Device Independent開發執行。您可以繼續閱讀下方資訊,以深入瞭解Urlcheckr基本資訊,使用者代理和訪問控制等。
MB-SiteCrawler
MB-SiteCrawler蜘蛛/爬蟲屬於連結檢測型別,由Marco Beierer開發執行。您可以繼續閱讀下方資訊,以深入瞭解MB-SiteCrawler基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles