YoudaoBot

YoudaoBot蜘蛛/爬蟲屬於搜尋引擎型別,由NetEase, Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解YoudaoBot基本資訊,使用者代理和訪問控制等。

基本資訊

YoudaoBot的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
YoudaoBot
型別
搜尋引擎
開發商
NetEase, Inc.
當前狀態
無效

使用者代理

關於YoudaoBot蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
YoudaoBot/1.0
使用者代理字串
Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )
首次出現
2009-05-11 05:50:00
最後出現
2016-03-17 10:36:06
遵循robots.txt
未知
來源
IP地址(40) 伺服器名稱 所屬國家
61.135.248.234 ? CN
61.135.249.205 youdaobot-61-135-249-205.crawler.youdao.com CN
61.135.249.217 youdaobot-61-135-249-217.crawler.youdao.com CN
61.135.249.93 61.135.249.93 CN
61.135.248.235 61.135.248.235 CN
61.135.249.207 youdaobot-61-135-249-207.crawler.youdao.com CN
61.135.249.218 youdaobot-61-135-249-218.crawler.youdao.com CN
61.135.249.11 61.135.249.11 CN
61.135.249.208 youdaobot-61-135-249-208.crawler.youdao.com CN
61.135.249.219 youdaobot-61-135-249-219.crawler.youdao.com CN
61.135.249.130 61.135.249.130 CN
61.135.249.209 youdaobot-61-135-249-209.crawler.youdao.com CN
61.135.249.220 youdaobot-61-135-249-220.crawler.youdao.com CN
61.135.249.173 61.135.249.173 CN
61.135.249.210 youdaobot-61-135-249-210.crawler.youdao.com CN
61.135.249.221 youdaobot-61-135-249-221.crawler.youdao.com CN
61.135.220.138 61.135.220.138 CN
使用者代理字串
MozillaTest/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )
首次出現
2015-08-20 09:45:00
最後出現
2015-08-20 11:18:56
遵循robots.txt
未知
來源
IP地址(3) 伺服器名稱 所屬國家
61.135.248.231 61.135.248.231 CN
61.135.249.140 61.135.249.140 CN
61.135.249.93 61.135.249.93 CN
使用者代理字串
Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )
首次出現
2009-05-11 05:50:00
最後出現
2013-05-07 15:04:20
遵循robots.txt
未知
來源
IP地址(291) 伺服器名稱 所屬國家
61.135.249.17 61.135.249.17 CN
61.135.249.181 61.135.249.181 CN
61.135.249.253 61.135.249.253 CN
61.135.249.34 61.135.249.34 CN
61.135.248.180 61.135.248.180 CN
61.135.248.227 61.135.248.227 CN
61.135.248.173 61.135.248.173 CN
61.135.249.18 61.135.249.18 CN
61.135.248.174 61.135.248.174 CN
61.135.249.185 61.135.249.185 CN
使用者代理字串
Mozilla/5.0 (compatible;YodaoBot-Image/1.0;http://www.youdao.com/help/webmaster/spider/;)
首次出現
2009-07-27 11:44:24
最後出現
2012-07-21 09:40:35
遵循robots.txt
未知
來源
IP地址(97) 伺服器名稱 所屬國家
61.135.249.87 61.135.249.87 CN
61.135.249.229 61.135.249.229 CN
61.135.249.119 61.135.249.119 CN
61.135.249.160 61.135.249.160 CN
61.135.248.189 61.135.248.189 CN
61.135.249.3 61.135.249.3 CN
61.135.249.51 61.135.249.51 CN
61.135.249.190 61.135.249.190 CN
61.135.248.230 61.135.248.230 CN
61.135.249.88 61.135.249.88 CN
61.135.249.128 61.135.249.128 CN
61.135.249.89 61.135.249.89 CN
61.135.249.234 61.135.249.234 CN
61.135.249.33 61.135.249.33 CN
61.135.249.17 61.135.249.17 CN
61.135.248.196 61.135.248.196 CN
61.135.249.56 61.135.249.56 CN
61.135.249.192 61.135.249.192 CN
61.135.249.100 61.135.249.100 CN
61.135.249.129 61.135.249.129 CN

訪問控制

瞭解如何控制YoudaoBot訪問許可權,避免YoudaoBot抓取行為不當。

是否攔截YoudaoBot?

一般不要攔截。搜尋引擎爬蟲為搜尋引擎提供動力,是使用者發現您網站的有效途徑。事實上,攔截搜尋引擎爬蟲可能會嚴重減少網站的自然流量。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 YoudaoBot 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: YoudaoBot
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: YoudaoBot Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: YoudaoBot
Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

自2016年以來,有道就不再公開其抓取網際網路頁面的詳細情況。可能是有道不再運營YoudaoBot,也有可能有道以非公開的方式來運營網際網路爬蟲。實際情況,我們不得而知。

為什麼有道不抓取我的網站呢?
有道是採用“順藤摸瓜”的方法抓取網站的。您的站點必須被其它網站所指向才會被有道抓取到,也就是說在外部網頁上有一個或多個連結指向您這裡。

為什麼有道沒有抓取我的網站裡的每一個網頁?
雖然我們不斷的增加索引量,但是有道不能保證抓取每個站點的所有內容。通常,如果貴站提供的資訊越有價值,內容質量越高,網頁模式越規範,您的網頁被收錄的比率就越高。

為什麼我的“祕密”連結會被有道抓到?
有道沒有試圖攻擊您的站點,“祕密”連結被抓取的原因在於它一定曾經出現在某個網頁中,有道只是提取了這些連結。不公開某個連結並不是儲存祕密的安全做法,建議您採取一些加密或者認證的措施。

如何讓有道不抓取某網頁上的所有連結?
您可以在該網頁的meta頭加入這樣的資訊:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
<META NAME="YoudaoBot" CONTENT="nofollow">
<META NAME="YoudaoBot" CONTENT="nofollow">
<META NAME="YoudaoBot" CONTENT="nofollow">

那麼該網頁的所有連結就不會被有道跟進,但網頁本身有可能被索引。

如何讓有道不抓取某網頁上的某個連結?
您可以對某個連結加上rel=”nofollow”屬性,例如:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
<a href="http://www.somehost.com/" rel="nofollow">不跟進的連結</a>
<a href="http://www.somehost.com/" rel="nofollow">不跟進的連結</a>
<a href="http://www.somehost.com/" rel="nofollow">不跟進的連結</a>

該連結就不會被有道跟進,但該網頁的其他連結都會被跟進。

為什麼有道多次抓取同一個網頁?
有道並不知道您的某個網頁是否更新,它每隔一段時間就會重新抓取一次該網頁。在重新抓取時,有道都會帶上一個”IF-MODIFIED-SINCE”的HTTP頭資訊,以通知您的伺服器返回更新的網頁。如您的伺服器能正確處理這樣的頭資訊就可以節約一定頻寬。一般情況下,有道不會在8個小時內兩次抓取同一個網頁,但也會有例外。

我的站點被抓得太頻繁了!
很抱歉,請把您的站點以及被抓取過頻繁的URL發郵件到youdaobot(a)corp.youdao.com告訴我們,並附上您的日誌檔案,我們將盡快找到並解決問題。關於您網站的任何資訊都不會被洩漏給第三方。

我不希望有道抓取我的站點,該怎麼辦?
有道遵循Robots這一用於禁止爬蟲抓取部分網站內容的網際網路標準協議。我們推薦您使用標準的robots.txt檔案。有道在抓取站點時會首先讀取robots.txt檔案,然後根據robots.txt檔案的要求進行抓取和索引。關於robots.txt檔案的更多資訊,請看幫助中心裡”關於robots.txt”這一節內容。如果您的robots.txt檔案符合標準,有道在抓取和索引時仍存在問題,請致信:youdaobot(a)corp.youdao.com ,我們的工程師將會盡快解決。

常見蜘蛛/爬蟲

Common Spiders
Mithril
Mithril蜘蛛/爬蟲屬於搜尋引擎型別,由University of Michigan開發執行。您可以繼續閱讀下方資訊,以深入瞭解Mithril基本資訊,使用者代理和訪問控制等。
fynd.bot crawler
fynd.bot crawler蜘蛛/爬蟲屬於搜尋引擎型別,由fynd.bot開發執行。您可以繼續閱讀下方資訊,以深入瞭解fynd.bot crawler基本資訊,使用者代理和訪問控制等。
Alibaba crawler
Alibaba crawler蜘蛛/爬蟲屬於搜尋引擎型別,由Alibaba Group開發執行。您可以繼續閱讀下方資訊,以深入瞭解Alibaba crawler基本資訊,使用者代理和訪問控制等。
Googlebot
GoogleBot蜘蛛/爬蟲屬於搜尋引擎型別,由Google Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解GoogleBot基本資訊,使用者代理和訪問控制等。
Swisscows Crawler
Swisscows Crawler蜘蛛/爬蟲屬於搜尋引擎型別,由Swisscows AG開發執行。您可以繼續閱讀下方資訊,以深入瞭解Swisscows Crawler基本資訊,使用者代理和訪問控制等。
star-finder.de Bot
star-finder.de Bot蜘蛛/爬蟲屬於搜尋引擎型別,由projektnet開發執行。您可以繼續閱讀下方資訊,以深入瞭解star-finder.de Bot基本資訊,使用者代理和訪問控制等。
SeznamBot
SeznamBot蜘蛛/爬蟲屬於搜尋引擎型別,由Seznam.cz, a.s.開發執行。您可以繼續閱讀下方資訊,以深入瞭解SeznamBot基本資訊,使用者代理和訪問控制等。
MojeekBot
MojeekBot蜘蛛/爬蟲屬於搜尋引擎型別,由Mojeek Ltd.開發執行。您可以繼續閱讀下方資訊,以深入瞭解MojeekBot基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles