Wikipedia crawler

Wikipedia crawler蜘蛛/爬蟲屬於連結檢測型別，由Wikimedia Foundation Inc開發執行。您可以繼續閱讀下方資訊，以深入瞭解Wikipedia crawler基本資訊，使用者代理和訪問控制等。

基本資訊

Wikipedia crawler的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲，可能存在資訊不明的情況。

蜘蛛/爬蟲名稱: Wikipedia crawler

型別: 連結檢測

開發商: Wikimedia Foundation Inc

當前狀態: 活動

使用者代理

關於Wikipedia crawler蜘蛛或者爬蟲的使用者代理字串，IP地址和伺服器，所在地等資訊如下表格所示：

使用者代理字串: IABot/2.0 (+https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins) (Checking if link from Wikipedia is broken and needs removal)

首次出現: 2019-09-21 07:32:50

最後出現: 2024-12-10 05:45:33

遵循robots.txt: 未知

來源

IP地址(3)	伺服器名稱	所屬國家
185.15.56.22	instance-cyberbot-exec-iabot-01.cyberbot.wmflabs.org	US
185.15.56.29	instance-cyberbot-exec-iabot-02.cyberbot.wmflabs.org	NL
185.15.56.1	nat.cloudgw.eqiad1.wikimediacloud.org	US

使用者代理字串: IABot: Checking if link from Wikipedia is broken and needs removal - See https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins

首次出現: 2019-04-19 05:00:12

最後出現: 2019-09-09 08:13:37

遵循robots.txt: 未知

來源

IP地址(1)	伺服器名稱	所屬國家
185.15.56.22	instance-cyberbot-exec-iabot-01.cyberbot.wmflabs.org	US

使用者代理字串: COIBotParser/2.0

首次出現: 2019-08-09 09:08:31

最後出現: 2019-08-09 09:08:31

遵循robots.txt: 未知

來源

IP地址(1)	伺服器名稱	所屬國家
185.15.56.1	nat.openstack.eqiad1.wikimediacloud.org	NL

使用者代理字串: German Wikipedia Broken Weblinks Bot; contact: gifti@tools.wmflabs.org

首次出現: 2015-02-21 09:58:19

最後出現: 2017-02-14 08:13:11

遵循robots.txt: 未知

來源

IP地址(1)	伺服器名稱	所屬國家
208.80.155.255	internal-server-nat.wmflabs.org	US

訪問控制

瞭解如何控制Wikipedia crawler訪問許可權，避免Wikipedia crawler抓取行為不當。

是否攔截Wikipedia crawler？

通常不需要。連結檢測類爬蟲的爬取行為一般也不是自發性的，僅當認為提交網站連結檢測請求，這些爬蟲才會對網站的連結進行抓取和檢測。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 Wikipedia crawler 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛，以檢查它是否真正遵循這些規則。

# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: Wikipedia crawler
Disallow: /

您無需手動執行此操作，可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

站長工具

我們為站長量身定做的高效工具集。

檢視全部工具

常見蜘蛛/爬蟲

Common Spiders

LinkChecker Pro bot

LinkChecker Pro bot蜘蛛/爬蟲屬於連結檢測型別，由Local Profy LLC開發執行。您可以繼續閱讀下方資訊，以深入瞭解LinkChecker Pro bot基本資訊，使用者代理和訪問控制等。

Online Domain Tools

Online Domain Tools蜘蛛/爬蟲屬於監控型別，由AITIS s.r.o.開發執行。您可以繼續閱讀下方資訊，以深入瞭解Online Domain Tools基本資訊，使用者代理和訪問控制等。

UASlinkChecker

UASlinkChecker蜘蛛/爬蟲屬於連結檢測型別，由Udger s.r.o.開發執行。您可以繼續閱讀下方資訊，以深入瞭解UASlinkChecker基本資訊，使用者代理和訪問控制等。

WPMU DEV crawler

WPMU DEV crawler蜘蛛/爬蟲屬於連結檢測型別，由Incsub, LLC開發執行。您可以繼續閱讀下方資訊，以深入瞭解WPMU DEV crawler基本資訊，使用者代理和訪問控制等。

Wikipedia crawler

Dead Link Checker

Dead Link Checker蜘蛛/爬蟲屬於連結檢測型別，由Slogical Corporation開發執行。您可以繼續閱讀下方資訊，以深入瞭解Dead Link Checker基本資訊，使用者代理和訪問控制等。

Urlcheckr

Urlcheckr蜘蛛/爬蟲屬於連結檢測型別，由Device Independent開發執行。您可以繼續閱讀下方資訊，以深入瞭解Urlcheckr基本資訊，使用者代理和訪問控制等。

MB-SiteCrawler

MB-SiteCrawler蜘蛛/爬蟲屬於連結檢測型別，由Marco Beierer開發執行。您可以繼續閱讀下方資訊，以深入瞭解MB-SiteCrawler基本資訊，使用者代理和訪問控制等。

如何做搜尋引擎蜘蛛日誌分析

搜尋引擎蜘蛛日誌檔案是一種非常強大但未被站長充分利用的檔案，分析它可以獲取有關每個搜尋引擎如何爬取網站內容的相關資訊點，及檢視搜尋引擎蜘蛛在一段時間內的行為。

什麼是抓取預算（Crawl Budget）及如何最大化其利用價值

抓取預算（Crawl Budget），您又可以將之稱為抓取頻率、抓取量。這個量一般是由搜尋引擎蜘蛛根據網站的質量度和權重給域名分配的。理解抓取預算的定義，重要性及最大化其效率，這有利於網站的索引、排名。

怎樣才算有利於SEO的網站結構

眾所周知，扁平且層級不超過三級的網站結構是最有利於搜尋引擎蜘蛛爬取的。顯淺的一句看似易懂但如深入，又未必是那麼容易理解。下面我們將深入瞭解網站結構的定義，重要性及實踐，以便於各位技術開發、站長和SEOer在未來的網站開發及運營中應用。

為什麼要控制Googlebot抓取速度？

在本文中，我們將瞭解您為什麼要控制Googlebot以及如何控制Googlebot和其他搜尋引擎爬蟲的抓取速度。

如何攔截Google和Bing訪問您的網站？

在本文中，我們將解釋如何遮蔽Googlebot和Bingbot，遮蔽爬蟲後會發生什麼以及出現爬取問題的常見原因。

Bing網站管理員工具Bingbot網站爬取頻率設定

Bing網站管理員工具中的爬網空間功能允許網站管理員控制Bingbot抓取您的網站的速率。當您的網站上有訪問者以適當地管理頻寬時，需要進行爬網控制以限制Bingbot和Googlebot等搜尋引擎蜘蛛的活動。

WordPress攔截IP地址的6種方法

當網站規模擴大時，您需要採取某些措施來限制來自評論垃圾郵件傳送者、無效機器人和人類攻擊者的流量。這對於保護您的伺服器資源可用於真實使用者以及您支付託管費用以獲得真實訪問者至關重要。在本文中，我們將解釋在WordPress中攔截IP地址的6種方法。

如何禁止搜尋引擎索引WordPress網站

您可能想要隱藏站點上的內容的原因有很多，但依靠“建議搜尋引擎不索引本站點”選項並不是確保此類內容不被看到的最佳方法。除非您想在網路上隱藏您的整個網站，否則永遠不要單擊此選項，因為如果不小心切換，它會對您的SEO造成巨大損害。

Wikipedia crawler

基本資訊

使用者代理

訪問控制

是否攔截Wikipedia crawler？

通過Robots.txt攔截

更多資訊

關於InternetArchiveBot

InternetArchiveBot如何運作

啟動和停止機器人

配置機器人

請求特定的文章

關於InternetArchiveBot的常見問題

站長工具

常見蜘蛛/爬蟲

相關文章