Wikipedia crawler Wikipedia crawler

蜘蛛/爬虫名称
Wikipedia crawler
开发商
Wikimedia Foundation Inc
官网
wikimediafoundation.org
当前状态
活动
  • IABot/2.0
  • IABot
  • COIBotParser/2.0
  • GiftBot
用户代理字符串
IABot/2.0 (+https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins) (Checking if link from Wikipedia is broken and needs removal)
类型
链接检测
首次出现
2019-09-21 07:32:50
最后出现
2024-02-22 20:31:02
遵循robots.txt
IP地址
3
来源
IP地址 服务器名称 所属国家
185.15.56.22 instance-cyberbot-exec-iabot-01.cyberbot.wmflabs.org US
185.15.56.29 instance-cyberbot-exec-iabot-02.cyberbot.wmflabs.org NL
185.15.56.1 nat.cloudgw.eqiad1.wikimediacloud.org US
用户代理字符串
IABot: Checking if link from Wikipedia is broken and needs removal - See https://meta.wikimedia.org/wiki/InternetArchiveBot/FAQ_for_sysadmins
类型
链接检测
首次出现
2019-04-19 05:00:12
最后出现
2019-09-09 08:13:37
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
185.15.56.22 instance-cyberbot-exec-iabot-01.cyberbot.wmflabs.org US
用户代理字符串
COIBotParser/2.0
类型
链接检测
首次出现
2019-08-09 09:08:31
最后出现
2019-08-09 09:08:31
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
185.15.56.1 nat.openstack.eqiad1.wikimediacloud.org NL
用户代理字符串
German Wikipedia Broken Weblinks Bot; contact: gifti@tools.wmflabs.org
类型
链接检测
首次出现
2015-02-21 09:58:19
最后出现
2017-02-14 08:13:11
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
208.80.155.255 internal-server-nat.wmflabs.org US

Wikipedia作为全球最大最受欢迎的百科知识门户,其对互联网信息的采集整理和优化任务巨大。Wikipedia与众多搜索引擎一样,也会出动爬虫对互联网信息进行采集,筛选及更新等。

但不同的是Wikipedia爬虫不固定为其中的几个,而是存在2000+不同名称不同作用的爬虫机器人,您可以通过官方链接查看大部分的Wikipedia爬虫机器人信息。

 

维基百科爬虫列表

这是一个按名称列出的所有维基百科机器人的完整列表,无论其状态、目的或方法如何。另请参见Special:ListUsers/bot

关于InternetArchiveBot

InternetArchiveBot是一个先进的机器人,可以识别和替换损坏的外部链接。InternetArchiveBot也对参考文献进行了其他的改进,包括填写裸露的参考文献模板,并在适当的地方添加资源的链接。InternetArchiveBot监控每个维基媒体维基的新外链,并在50多个维基媒体维基上积极进行修复。这个机器人是作为互联网档案馆的一项服务,与维基媒体社区合作运营的。

由于志愿者的翻译,InternetArchiveBot的管理界面有许多语言版本。 如果您意愿,也可以访问 translatewiki.net 来帮助。

InternetArchiveBot如何运作

启动和停止机器人

  • 阻止机器人是不需要停止它的。
  • 点击 “链接“。确保从顶部的下拉菜单中选择正确的维基。
  • 如果页面显示:”This wiki is: Enabled”
    禁用机器人,请写出应该禁用机器人的原因,然后点击 “禁用”。
    在User talk:InternetArchiveBot上留言,解释你为什么禁用机器人。包括已经进行的不良编辑。
  • 如果页面显示:”This wiki is: Disabled”
    启用机器人,请写出应该启用机器人的原因,然后点击 “Enable”。
    首先,确保机器人有在你的维基上运行的共识。遵循你的维基的机器人政策
    如果机器人是由于错误的编辑而被禁用,请首先确保这些错误已经被修复。
  • 如果机器人被封锁了,请立即在User talk:InternetArchiveBot留言。
  • 即使机器人没有在某个维基上运行,互联网档案馆也会为每个维基媒体维基添加的几乎所有新的外部链接建立档案,而且自2013年以来一直如此。如果一个机器人在维基上被阻止或禁用,它也不会停止这项工作。
    查看运行页面

配置机器人

机器人的行为可以被改变以适应维基的需要。这可以通过在界面的配置页面上更新数值来实现。点击下面的链接来访问配置页面。确保从顶部的下拉菜单中选择正确的维基。只有管理员可以编辑特定维基的配置。

查看配置页面

请求特定的文章

你可以使用 “分析页面“界面来修复死链接,或在特定页面上为所有链接添加存档链接。使用此工具进行的编辑将归于你。请确保从顶部的下拉菜单中选择正确的维基。

你也可以排队让机器人在多个页面上运行。这些文章将被添加到InternetArchiveBot的编辑队列中。

关于InternetArchiveBot的常见问题

问:为什么机器人会向我的网站发出请求?

答:InternetArchiveBot是维基百科上一个非常依赖的工具。该机器人定期检查维基百科上的文章,并修复、替换或删除中断的链接。要做到这一点,它需要对URL进行ping,以检查它是否在工作。它通常通过发送HEAD请求来实现这一目的,以减少服务器的压力。在某些情况下,如果HEAD请求失败,它可能会尝试做一个完整的GET请求。

问:我的网站上有一个robots.txt,但InternetArchiveBot却忽略了它。为什么它不尊重robots.txt?

答:这是因为InternetArchiveBot实际上并没有抓取你的网站内容。该网站的内容没有被保存在任何地方。该机器人所做的只是评估该URL是否真的是一个提供内容的工作URL。它访问该URL只是因为它被用作维基百科上的一个来源。你会注意到,IABot在大多数情况下都在发出HEAD请求。如果该来源被从维基百科上删除,或被发现是坏的,IABot将停止向其发出请求。

问:为什么机器人会同时发出许多请求?

答:InternetArchiveBot以每篇文章为基础来测试链接。这意味着它每次都会浏览文章,并测试文章中发现的所有链接。如果您的网站在某篇文章中被大量使用,InternetArchiveBot将向所有这些URL发出请求。然而,IABot将在前往同一网站的请求之间等待1秒。

问:这些测试之间是否有一个等待期?

答:是的,如果URL被认为是活的,它将在再次测试特定URL之前保持至少1周的等待时间。如果发现该URL是死的,它将再测试2次,每次测试之间至少等待3天,然后再宣布它被破坏。如果机器人在剩下的2次测试中发现该URL是活的,那么1周的等待时间将被重新恢复。一旦机器人宣布一个链接被破坏,它将停止对该URL的进一步测试。

问:我可以阻止机器人吗?

答:你可以,但这是不可取的。阻止机器人可能会导致机器人认定你的整个网站都是坏的,并且在维基百科上会被这样对待。建议你联系User talk:InternetArchiveBot并要求他们将你的域名列入白名单。一旦列入白名单,机器人就会停止向你的域名发出请求。

问:如果我阻止机器人,会发生什么?

答:InternetArchiveBot会尽力确定你的网站是否瘫痪了,或者它被阻止了访问。如果它确定它已被封锁,它将把你的域名列入白名单,并自动停止向它发出请求。如果它不能检测到它已被封锁,IABot最终将开始把你的域名中的所有URL视为坏的,并可能从维基百科中替换或删除它们。

问:如果一个URL或一个网站被认为是不正常的,会发生什么?

答:InternetArchiveBot将停止向它认为是坏掉的URL发出请求,并开始从维基百科上替换或删除这些URL。如果被替换,它通常会用Wayback Machine捕获的存档副本来替换。

问:我们最近重组了我们的网站,但是InternetArchiveBot仍然在向旧的URLs发出请求。我们该怎么做?

答:有两个选择。最简单的办法是让所有旧的URL使用302代码重定向到他们新的正确的URL。IABot跟随重定向,并会自动测试新的URL。第二个选择是联系User talk:InternetArchiveBot并告知他们新的URL结构和如何正确转换。

问:如果我有更多的问题,我该怎么做?

答:建议你联系User talk:InternetArchiveBot并在他们的谈话页面上留言。要做到这一点,请点击页面右上方的New Section标签。

常见问题

FAQs
查看更多 >