YoudaoBot

YoudaoBot蜘蛛/爬虫属于搜索引擎类型,由NetEase, Inc.开发运行。您可以继续阅读下方信息,以深入了解YoudaoBot基本信息,用户代理和访问控制等。

基本信息

YoudaoBot的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
YoudaoBot
类型
搜索引擎
开发商
NetEase, Inc.
当前状态
无效

用户代理

关于YoudaoBot蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
YoudaoBot/1.0
用户代理字符串
Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )
首次出现
2009-05-11 05:50:00
最后出现
2016-03-17 10:36:06
遵循robots.txt
未知
来源
IP地址(40) 服务器名称 所属国家
61.135.248.234 ? CN
61.135.249.205 youdaobot-61-135-249-205.crawler.youdao.com CN
61.135.249.217 youdaobot-61-135-249-217.crawler.youdao.com CN
61.135.249.93 61.135.249.93 CN
61.135.248.235 61.135.248.235 CN
61.135.249.207 youdaobot-61-135-249-207.crawler.youdao.com CN
61.135.249.218 youdaobot-61-135-249-218.crawler.youdao.com CN
61.135.249.11 61.135.249.11 CN
61.135.249.208 youdaobot-61-135-249-208.crawler.youdao.com CN
61.135.249.219 youdaobot-61-135-249-219.crawler.youdao.com CN
61.135.249.130 61.135.249.130 CN
61.135.249.209 youdaobot-61-135-249-209.crawler.youdao.com CN
61.135.249.220 youdaobot-61-135-249-220.crawler.youdao.com CN
61.135.249.173 61.135.249.173 CN
61.135.249.210 youdaobot-61-135-249-210.crawler.youdao.com CN
61.135.249.221 youdaobot-61-135-249-221.crawler.youdao.com CN
61.135.220.138 61.135.220.138 CN
用户代理字符串
MozillaTest/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )
首次出现
2015-08-20 09:45:00
最后出现
2015-08-20 11:18:56
遵循robots.txt
未知
来源
IP地址(3) 服务器名称 所属国家
61.135.248.231 61.135.248.231 CN
61.135.249.140 61.135.249.140 CN
61.135.249.93 61.135.249.93 CN
用户代理字符串
Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )
首次出现
2009-05-11 05:50:00
最后出现
2013-05-07 15:04:20
遵循robots.txt
未知
来源
IP地址(291) 服务器名称 所属国家
61.135.249.17 61.135.249.17 CN
61.135.249.181 61.135.249.181 CN
61.135.249.253 61.135.249.253 CN
61.135.249.34 61.135.249.34 CN
61.135.248.180 61.135.248.180 CN
61.135.248.227 61.135.248.227 CN
61.135.248.173 61.135.248.173 CN
61.135.249.18 61.135.249.18 CN
61.135.248.174 61.135.248.174 CN
61.135.249.185 61.135.249.185 CN
用户代理字符串
Mozilla/5.0 (compatible;YodaoBot-Image/1.0;http://www.youdao.com/help/webmaster/spider/;)
首次出现
2009-07-27 11:44:24
最后出现
2012-07-21 09:40:35
遵循robots.txt
未知
来源
IP地址(97) 服务器名称 所属国家
61.135.249.87 61.135.249.87 CN
61.135.249.229 61.135.249.229 CN
61.135.249.119 61.135.249.119 CN
61.135.249.160 61.135.249.160 CN
61.135.248.189 61.135.248.189 CN
61.135.249.3 61.135.249.3 CN
61.135.249.51 61.135.249.51 CN
61.135.249.190 61.135.249.190 CN
61.135.248.230 61.135.248.230 CN
61.135.249.88 61.135.249.88 CN
61.135.249.128 61.135.249.128 CN
61.135.249.89 61.135.249.89 CN
61.135.249.234 61.135.249.234 CN
61.135.249.33 61.135.249.33 CN
61.135.249.17 61.135.249.17 CN
61.135.248.196 61.135.248.196 CN
61.135.249.56 61.135.249.56 CN
61.135.249.192 61.135.249.192 CN
61.135.249.100 61.135.249.100 CN
61.135.249.129 61.135.249.129 CN

访问控制

了解如何控制YoudaoBot访问权限,避免YoudaoBot抓取行为不当。

是否拦截YoudaoBot?

一般不要拦截。搜索引擎爬虫为搜索引擎提供动力,是用户发现您网站的有效途径。事实上,拦截搜索引擎爬虫可能会严重减少网站的自然流量。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 YoudaoBot 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: YoudaoBot
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

自2016年以来,有道就不再公开其抓取互联网页面的详细情况。可能是有道不再运营YoudaoBot,也有可能有道以非公开的方式来运营互联网爬虫。实际情况,我们不得而知。

为什么有道不抓取我的网站呢?
有道是采用“顺藤摸瓜”的方法抓取网站的。您的站点必须被其它网站所指向才会被有道抓取到,也就是说在外部网页上有一个或多个链接指向您这里。

为什么有道没有抓取我的网站里的每一个网页?
虽然我们不断的增加索引量,但是有道不能保证抓取每个站点的所有内容。通常,如果贵站提供的信息越有价值,内容质量越高,网页模式越规范,您的网页被收录的比率就越高。

为什么我的“秘密”链接会被有道抓到?
有道没有试图攻击您的站点,“秘密”链接被抓取的原因在于它一定曾经出现在某个网页中,有道只是提取了这些链接。不公开某个链接并不是保存秘密的安全做法,建议您采取一些加密或者认证的措施。

如何让有道不抓取某网页上的所有链接?
您可以在该网页的meta头加入这样的信息:

<META NAME="YoudaoBot" CONTENT="nofollow">

那么该网页的所有链接就不会被有道跟进,但网页本身有可能被索引。

如何让有道不抓取某网页上的某个链接?
您可以对某个链接加上rel=”nofollow”属性,例如:

<a href="http://www.somehost.com/" rel="nofollow">不跟进的链接</a>

该链接就不会被有道跟进,但该网页的其他链接都会被跟进。

为什么有道多次抓取同一个网页?
有道并不知道您的某个网页是否更新,它每隔一段时间就会重新抓取一次该网页。在重新抓取时,有道都会带上一个”IF-MODIFIED-SINCE”的HTTP头信息,以通知您的服务器返回更新的网页。如您的服务器能正确处理这样的头信息就可以节约一定带宽。一般情况下,有道不会在8个小时内两次抓取同一个网页,但也会有例外。

我的站点被抓得太频繁了!
很抱歉,请把您的站点以及被抓取过频繁的URL发邮件到youdaobot(a)corp.youdao.com告诉我们,并附上您的日志文件,我们将尽快找到并解决问题。关于您网站的任何信息都不会被泄漏给第三方。

我不希望有道抓取我的站点,该怎么办?
有道遵循Robots这一用于禁止爬虫抓取部分网站内容的互联网标准协议。我们推荐您使用标准的robots.txt文件。有道在抓取站点时会首先读取robots.txt文件,然后根据robots.txt文件的要求进行抓取和索引。关于robots.txt文件的更多信息,请看帮助中心里”关于robots.txt”这一节内容。如果您的robots.txt文件符合标准,有道在抓取和索引时仍存在问题,请致信:youdaobot(a)corp.youdao.com ,我们的工程师将会尽快解决。

常见蜘蛛/爬虫

Common Spiders
fynd.bot crawler
fynd.bot crawler蜘蛛/爬虫属于搜索引擎类型,由fynd.bot开发运行。您可以继续阅读下方信息,以深入了解fynd.bot crawler基本信息,用户代理和访问控制等。
Alibaba crawler
Alibaba crawler蜘蛛/爬虫属于搜索引擎类型,由Alibaba Group开发运行。您可以继续阅读下方信息,以深入了解Alibaba crawler基本信息,用户代理和访问控制等。
Googlebot
GoogleBot蜘蛛/爬虫属于搜索引擎类型,由Google Inc.开发运行。您可以继续阅读下方信息,以深入了解GoogleBot基本信息,用户代理和访问控制等。
Swisscows Crawler
Swisscows Crawler蜘蛛/爬虫属于搜索引擎类型,由Swisscows AG开发运行。您可以继续阅读下方信息,以深入了解Swisscows Crawler基本信息,用户代理和访问控制等。
star-finder.de Bot
star-finder.de Bot蜘蛛/爬虫属于搜索引擎类型,由projektnet开发运行。您可以继续阅读下方信息,以深入了解star-finder.de Bot基本信息,用户代理和访问控制等。
SeznamBot
SeznamBot蜘蛛/爬虫属于搜索引擎类型,由Seznam.cz, a.s.开发运行。您可以继续阅读下方信息,以深入了解SeznamBot基本信息,用户代理和访问控制等。
MojeekBot
MojeekBot蜘蛛/爬虫属于搜索引擎类型,由Mojeek Ltd.开发运行。您可以继续阅读下方信息,以深入了解MojeekBot基本信息,用户代理和访问控制等。
Bravebot
Bravebot蜘蛛/爬虫属于搜索引擎类型,由Brave Software Inc.开发运行。您可以继续阅读下方信息,以深入了解Bravebot基本信息,用户代理和访问控制等。

相关文章

Related Articles