YoudaoBot

基本信息

YoudaoBot的基本信息如下表。但部分不是很规范的蜘蛛和爬虫，可能存在信息不明的情况。

蜘蛛/爬虫名称: YoudaoBot

类型: 搜索引擎

开发商: NetEase, Inc.

当前状态: 无效

用户代理

关于YoudaoBot蜘蛛或者爬虫的用户代理字符串，IP地址和服务器，所在地等信息如下表格所示：

用户代理字符串: Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )

首次出现: 2009-05-11 05:50:00

最后出现: 2016-03-17 10:36:06

遵循robots.txt: 未知

来源

IP地址(40)	服务器名称	所属国家
61.135.248.234	?	CN
61.135.249.205	youdaobot-61-135-249-205.crawler.youdao.com	CN
61.135.249.217	youdaobot-61-135-249-217.crawler.youdao.com	CN
61.135.249.93	61.135.249.93	CN
61.135.248.235	61.135.248.235	CN
61.135.249.207	youdaobot-61-135-249-207.crawler.youdao.com	CN
61.135.249.218	youdaobot-61-135-249-218.crawler.youdao.com	CN
61.135.249.11	61.135.249.11	CN
61.135.249.208	youdaobot-61-135-249-208.crawler.youdao.com	CN
61.135.249.219	youdaobot-61-135-249-219.crawler.youdao.com	CN
61.135.249.130	61.135.249.130	CN
61.135.249.209	youdaobot-61-135-249-209.crawler.youdao.com	CN
61.135.249.220	youdaobot-61-135-249-220.crawler.youdao.com	CN
61.135.249.173	61.135.249.173	CN
61.135.249.210	youdaobot-61-135-249-210.crawler.youdao.com	CN
61.135.249.221	youdaobot-61-135-249-221.crawler.youdao.com	CN
61.135.220.138	61.135.220.138	CN

用户代理字符串: MozillaTest/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )

首次出现: 2015-08-20 09:45:00

最后出现: 2015-08-20 11:18:56

遵循robots.txt: 未知

来源

IP地址(3)	服务器名称	所属国家
61.135.248.231	61.135.248.231	CN
61.135.249.140	61.135.249.140	CN
61.135.249.93	61.135.249.93	CN

用户代理字符串: Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )

首次出现: 2009-05-11 05:50:00

最后出现: 2013-05-07 15:04:20

遵循robots.txt: 未知

来源

IP地址(291)	服务器名称	所属国家
61.135.249.17	61.135.249.17	CN
61.135.249.181	61.135.249.181	CN
61.135.249.253	61.135.249.253	CN
61.135.249.34	61.135.249.34	CN
61.135.248.180	61.135.248.180	CN
61.135.248.227	61.135.248.227	CN
61.135.248.173	61.135.248.173	CN
61.135.249.18	61.135.249.18	CN
61.135.248.174	61.135.248.174	CN
61.135.249.185	61.135.249.185	CN

用户代理字符串: Mozilla/5.0 (compatible;YodaoBot-Image/1.0;http://www.youdao.com/help/webmaster/spider/;)

首次出现: 2009-07-27 11:44:24

最后出现: 2012-07-21 09:40:35

遵循robots.txt: 未知

来源

IP地址(97)	服务器名称	所属国家
61.135.249.87	61.135.249.87	CN
61.135.249.229	61.135.249.229	CN
61.135.249.119	61.135.249.119	CN
61.135.249.160	61.135.249.160	CN
61.135.248.189	61.135.248.189	CN
61.135.249.3	61.135.249.3	CN
61.135.249.51	61.135.249.51	CN
61.135.249.190	61.135.249.190	CN
61.135.248.230	61.135.248.230	CN
61.135.249.88	61.135.249.88	CN
61.135.249.128	61.135.249.128	CN
61.135.249.89	61.135.249.89	CN
61.135.249.234	61.135.249.234	CN
61.135.249.33	61.135.249.33	CN
61.135.249.17	61.135.249.17	CN
61.135.248.196	61.135.248.196	CN
61.135.249.56	61.135.249.56	CN
61.135.249.192	61.135.249.192	CN
61.135.249.100	61.135.249.100	CN
61.135.249.129	61.135.249.129	CN

访问控制

了解如何控制YoudaoBot访问权限，避免YoudaoBot抓取行为不当。

是否拦截YoudaoBot？

一般不要拦截。搜索引擎爬虫为搜索引擎提供动力，是用户发现您网站的有效途径。事实上，拦截搜索引擎爬虫可能会严重减少网站的自然流量。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 YoudaoBot 或限制其访问权限。我们建议安装 Spider Analyser 插件，以检查它是否真正遵循这些规则。

# robots.txt
# 下列代码一般情况可以拦截该代理
User-agent: YoudaoBot
Disallow: /

您无需手动执行此操作，可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

自2016年以来，有道就不再公开其抓取互联网页面的详细情况。可能是有道不再运营YoudaoBot，也有可能有道以非公开的方式来运营互联网爬虫。实际情况，我们不得而知。

为什么有道不抓取我的网站呢？
有道是采用“顺藤摸瓜”的方法抓取网站的。您的站点必须被其它网站所指向才会被有道抓取到，也就是说在外部网页上有一个或多个链接指向您这里。

为什么有道没有抓取我的网站里的每一个网页？
虽然我们不断的增加索引量，但是有道不能保证抓取每个站点的所有内容。通常，如果贵站提供的信息越有价值，内容质量越高，网页模式越规范，您的网页被收录的比率就越高。

为什么我的“秘密”链接会被有道抓到？
有道没有试图攻击您的站点，“秘密”链接被抓取的原因在于它一定曾经出现在某个网页中，有道只是提取了这些链接。不公开某个链接并不是保存秘密的安全做法，建议您采取一些加密或者认证的措施。

如何让有道不抓取某网页上的所有链接？
您可以在该网页的meta头加入这样的信息：

<META NAME="YoudaoBot" CONTENT="nofollow">

那么该网页的所有链接就不会被有道跟进，但网页本身有可能被索引。

如何让有道不抓取某网页上的某个链接？
您可以对某个链接加上rel=”nofollow”属性，例如：

<a href="http://www.somehost.com/" rel="nofollow">不跟进的链接</a>

该链接就不会被有道跟进，但该网页的其他链接都会被跟进。

为什么有道多次抓取同一个网页？
有道并不知道您的某个网页是否更新，它每隔一段时间就会重新抓取一次该网页。在重新抓取时，有道都会带上一个”IF-MODIFIED-SINCE”的HTTP头信息，以通知您的服务器返回更新的网页。如您的服务器能正确处理这样的头信息就可以节约一定带宽。一般情况下，有道不会在8个小时内两次抓取同一个网页，但也会有例外。

我的站点被抓得太频繁了！
很抱歉，请把您的站点以及被抓取过频繁的URL发邮件到youdaobot(a)corp.youdao.com告诉我们，并附上您的日志文件，我们将尽快找到并解决问题。关于您网站的任何信息都不会被泄漏给第三方。

我不希望有道抓取我的站点，该怎么办？
有道遵循Robots这一用于禁止爬虫抓取部分网站内容的互联网标准协议。我们推荐您使用标准的robots.txt文件。有道在抓取站点时会首先读取robots.txt文件，然后根据robots.txt文件的要求进行抓取和索引。关于robots.txt文件的更多信息，请看帮助中心里”关于robots.txt”这一节内容。如果您的robots.txt文件符合标准，有道在抓取和索引时仍存在问题，请致信：youdaobot(a)corp.youdao.com ，我们的工程师将会尽快解决。