YioopBot

YioopBot蜘蛛/爬蟲屬於搜尋引擎型別,由SeekQuarry, LLC開發執行。您可以繼續閱讀下方資訊,以深入瞭解YioopBot基本資訊,使用者代理和訪問控制等。

基本資訊

YioopBot的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
YioopBot
型別
搜尋引擎
開發商
SeekQuarry, LLC
當前狀態
活動

使用者代理

關於YioopBot蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
YioopBot
使用者代理字串
Mozilla/5.0 (compatible; YioopBot; +https://www.yioop.com/bot.php)
首次出現
2019-07-15 18:47:22
最後出現
2020-09-22 17:34:17
遵循robots.txt
未知
來源
IP地址(5) 伺服器名稱 所屬國家
173.13.143.76 173-13-143-76-sfba.hfc.comcastbusiness.net US
173.13.143.74 173-13-143-74-sfba.hfc.comcastbusiness.net US
173.13.143.78 173-13-143-78-sfba.hfc.comcastbusiness.net US
使用者代理字串
Mozilla/5.0 (compatible; Please Name Your robot; +http://192.168.1.33:23481/yioop/bot.php)
首次出現
2018-09-25 08:59:59
最後出現
2018-09-25 09:03:10
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
95.31.13.58 shabuninairina.static.corbina.ru RU
使用者代理字串
Mozilla/5.0 (compatible; YioopBot; +http://173.13.143.74/bot.php)
首次出現
2013-01-07 13:05:46
最後出現
2015-10-15 17:48:39
遵循robots.txt
未知
來源
IP地址(2) 伺服器名稱 所屬國家
173.13.143.74 173-13-143-74-sfba.hfc.comcastbusiness.net US
173.13.143.78 173-13-143-78-sfba.hfc.comcastbusiness.net US
使用者代理字串
Mozilla/5.0 (compatible; TestBot; +http://localhost/yioop/bot.php)
首次出現
2015-08-25 07:44:05
最後出現
2015-08-25 07:44:05
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
78.69.113.163 78-69-113-163-no49.tbcn.telia.com SE
使用者代理字串
Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)
首次出現
2012-03-12 19:24:27
最後出現
2012-11-18 00:22:43
遵循robots.txt
未知
來源
IP地址(2) 伺服器名稱 所屬國家
173.13.143.76 173-13-143-76-sfba.hfc.comcastbusiness.net US
173.13.143.74 173-13-143-74-sfba.hfc.comcastbusiness.net US
173.13.143.78 173-13-143-78-sfba.hfc.comcastbusiness.net US
95.31.13.58 shabuninairina.static.corbina.ru RU
78.69.113.163 78-69-113-163-no49.tbcn.telia.com SE
使用者代理字串
Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)
首次出現
2012-03-12 19:24:27
最後出現
2012-11-18 00:22:43
遵循robots.txt
未知
來源
IP地址(2) 伺服器名稱 所屬國家
173.13.143.74 173-13-143-74-sfba.hfc.comcastbusiness.net US
173.13.143.78 173-13-143-78-sfba.hfc.comcastbusiness.net US
使用者代理字串
Mozilla/5.0 (compatible; gofind; +http://govid.mobi/bot.php)
首次出現
2012-04-09 10:20:42
最後出現
2012-04-06 19:37:19
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
69.60.122.130 69.60.122.130 US

訪問控制

瞭解如何控制YioopBot訪問許可權,避免YioopBot抓取行為不當。

是否攔截YioopBot?

一般不要攔截。搜尋引擎爬蟲為搜尋引擎提供動力,是使用者發現您網站的有效途徑。事實上,攔截搜尋引擎爬蟲可能會嚴重減少網站的自然流量。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 YioopBot 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: YioopBot
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: YioopBot Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: YioopBot
Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

如何識別Yioop Bot

估計你來到這個網站是因為你注意到了來自一個使用者代理的流量,該代理以字串的形式識別自己。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)
Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)
Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)

如果該IP地址也是173.13.143.73至78,那麼你就來到了正確的地方,可以瞭解到可能是誰在抓取你的網站。如果是不同的IP地址,那麼就有其他人劫持了我的爬蟲的名字。

誰在執行Yioop Bot

幾年前,Chris Pollett開始在家用機器上進行實驗,以建立一個2500萬頁的索引。Chris Pollett選擇2500萬作為目標,因為這是在1998年關於谷歌的原始論文中抓取的頁面數量。Chris Pollett終於在2011年10月初實現了這個目標。Chris Pollett的下一個目標是在我的家用機器上抓取1億個頁面–這是Nutch在2003年的演示中抓取的數字。這是在2012年2月5日至3月14日期間通過Yioop實現的。以下是Chris Pollett已經/正在進行的較長時間的抓取列表:

  • May. 24, 2019 – . 測試爬行序列,希望能在新的十億頁爬行中達到高潮。
  • Oct. 10, 2014 – Oct 15, 2015 . 十億個頁面。
  • Jul. 31, 2013 – Nov. 11, 2013 . 3.34億個頁面。
  • Dec. 17, 2012 – Mar. 14, 2013 . 2.76億頁。
  • May, 2012 – July, 2012 . 2.5億個頁面。

抓取結果被用於一個實際的搜尋引擎,可在http://www.yioop.com/。這個網站得到來自世界各地的查詢。這個搜尋引擎和爬蟲的GPLv3原始碼可在http://www.seekquarry.com/。如果你真的很無聊,你可以在你的網站上實際測試這個軟體,以確認或反駁下面描述的內容。如果你發現了錯誤,最好能給Chris Pollett寫信,地址在本文末尾。

Yioop Bot爬行網站的頻率

Yioop Bot目前是在少量的機器上零星地執行(不是連續地)。每臺機器有大約4-6個取樣器程序。每個採集器在任何時候最多開啟100-300個連線。在一個典型的情況下,這些連線不會都到同一個主機上。

你如何改變Yioop Bot對你網站的抓取方式

Yioop Bot理解robots.txt(必須是robots.txt而不是robot.txt)檔案,並將服從其中的命令,但阻止抓取網站主機頁面(又稱登陸頁)的命令除外。也就是說,如果你有一個命令阻止像http://foo.com/some_path,Yioop將遵守它;但Yioop仍然可能下載頁面http://foo.com/。robots.txt必須放在你網站的根目錄下,以便遵守其指令。Yioop不會在子資料夾中尋找robots.txt檔案。一個簡單的robots.txt檔案可以阻止Yioop!抓取除主機url頁面、cool_stuff資料夾及其子資料夾以外的任何資料夾,它看起來像:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
User-agent: YioopBot
Disallow: /
Allow: /cool_stuff/
User-agent: YioopBot Disallow: / Allow: /cool_stuff/
User-agent: YioopBot	
Disallow: /
Allow: /cool_stuff/

YioopBot也服從HTML ROBOTS元標籤,內容包括none, noindex, nofollow, noarchive, nosnippet。一個使用noindex, nofollow指令的HTML頁面示例可能看起來如下。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
<!DOCTYPE html >
<html>
<head><title>Meta Robots Example</title>
<meta name="ROBOTS" content="NOINDEX,NOFOLLOW" />
<!-- The members of the content attribute must be comma separated,
whitespace will be ignored-->
</head>
<body>
<p>Stuff robots shouldn't put in their index.
<a href="/somewhere">A link that nofollow will prevent from being followed</a></p>
</body>
</html>
<!DOCTYPE html > <html> <head><title>Meta Robots Example</title> <meta name="ROBOTS" content="NOINDEX,NOFOLLOW" /> <!-- The members of the content attribute must be comma separated, whitespace will be ignored--> </head> <body> <p>Stuff robots shouldn't put in their index. <a href="/somewhere">A link that nofollow will prevent from being followed</a></p> </body> </html>
<!DOCTYPE html >
<html>
<head><title>Meta Robots Example</title>
<meta name="ROBOTS" content="NOINDEX,NOFOLLOW" />
<!-- The members of the content attribute must be comma separated, 
whitespace will be ignored-->
</head>
<body>
<p>Stuff robots shouldn't put in their index.
<a href="/somewhere">A link that nofollow will prevent from being followed</a></p>
</body>
</html>

YioopBot不使用開放目錄或雅虎目錄資料,所以隱含地支援noodp和noydir。YioopBot不分大小寫地進行匹配。在文件的頭部,人們也可以使用rel canonical語法指定一個對應於當前頁面的規範頁面。比如說:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
<link rel="canonical" href="http://my.canonical.page.com/" />
<link rel="canonical" href="http://my.canonical.page.com/" />
<link rel="canonical" href="http://my.canonical.page.com/" />

可能會出現在一個有url http://my.canonical.page.com/?t=gratuitous_token 的頁面上,以表明這個頁面和規範頁面是一樣的。在HTML文件中,Yioop Bot會尊重錨定指令。例如,以下連結不會被Yioop Bot跟蹤:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
<a href="/somewhere_else" rel="nofollow" >This link would not be followed by YioopBot</a>
<a href="/somewhere_else" rel="nofollow" >This link would not be followed by YioopBot</a>
<a href="/somewhere_else" rel="nofollow" >This link would not be followed by YioopBot</a>

Yioop Bot進一步理解了對robots.txt標準的Crawl-delay擴充套件,也理解了Sitemap指令。比如說:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
User-agent: YioopBot
Crawl-Delay: 10 # YioopBot will wait 10 seconds between requests
Sitemap: http://www.mycoolsite.com/mycoolsitemap.xml.gz #YioopBot will eventually download
User-agent: YioopBot Crawl-Delay: 10 # YioopBot will wait 10 seconds between requests Sitemap: http://www.mycoolsite.com/mycoolsitemap.xml.gz #YioopBot will eventually download
User-agent: YioopBot	
Crawl-Delay: 10 # YioopBot will wait 10 seconds between requests
Sitemap: http://www.mycoolsite.com/mycoolsitemap.xml.gz #YioopBot will eventually download

對於非HTML頁面,你可以控制Yioop Bot如何索引,跟蹤連結,以及Yioop!如何在Yioop!中顯示這些頁面的結果。網站上顯示這些網頁的結果,通過使用X-Robots-Tag HTTP頭。例如,如果你的網路伺服器在實際頁面資料(如PDF檔案)之前,作為其HTTP響應頭的一部分,傳送以下內容:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
X-Robots-Tag: nosnippet
X-Robots-Tag: nosnippet
X-Robots-Tag: nosnippet

那麼,如果該PDF檔案作為搜尋結果的一部分出現,那麼搜尋結果中的連結下就不會有片段文字。如果你想為一個非html檔案指定一個規範的連結,你可以使用一個HTTP頭,比如。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
Link: <http://my.canonical.page.com/sub_dir/my.pdf>; rel="canonical"
Link: <http://my.canonical.page.com/sub_dir/my.pdf>; rel="canonical"
Link: <http://my.canonical.page.com/sub_dir/my.pdf>; rel="canonical"

關於 robots.txt 和 Meta 標籤處理的更多具體資訊

在處理robots.txt檔案時,如果Disallow和Allow行有衝突,YioopBot會優先考慮Allow指令,而不是Disallow指令,因為robots.txt的預設行為是允許一切,除了明確不允許的內容。

如果一個網頁有一個noindex元標籤,那麼它就不會出現在搜尋結果中,前提是Yioop!已經實際下載了該網頁。如果Yioop!沒有下載該網頁,或者被robots.txt檔案禁止下載該網頁,那麼該網頁的連結就有可能出現在搜尋結果中。這可能發生在另一個頁面連結到給定的頁面,而Yioop提取了這個連結及其文字,並在搜尋結果中使用它們。人們可以通過在Yioop!中輸入info:URL查詢並檢視結果來檢查一個URL是否被下載。

當處理robots.txt檔案時,YioopBot首先尋找YioopBot使用者代理塊,並提取其中列出的所有允許和不允許路徑。一旦成功,這些就構成了YioopBot用來限制其訪問你的網站的路徑。如果它找不到任何這樣的塊,它就會不分大小寫地搜尋可能包含萬用字元*的User-Agent名稱,這些名稱與YioopBot的名稱匹配。例如,*oop*,*Bot*,等等。然後,它解析所有這些塊,並使用它們來限制對你的網站的訪問。特別是,如果你有一個塊 “User-Agent: *”,後面有允許和禁止規則,但沒有YioopBot的塊,那麼這些路徑將是YioopBot使用和尊重的。
根據網站地圖規範,網站地圖指令與任何特定的使用者代理沒有關聯。因此,Yioop會在它所做的範圍內處理它發現的任何此類指令。

在2012年3月(v 0.86)之前,YioopBot在處理允許和禁止路徑時,不理解這些路徑中的*或$。”*”和”$”是谷歌、雅虎和必應支援的原始 robots.txt 規範的擴充套件。從2012年3月起,YioopBot可以理解這些擴充套件。因此,舉例來說,人們可以通過設定Disallow路徑來阻止訪問你的網站上包含查詢字串的頁面,例如:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
Disallow: /*?
Disallow: /*?
Disallow: /*?

Yioop!利用cURL庫來下載網頁。在2012年3月(v0.86)之前,Yioop!使用cURL的自動跟蹤重定向。這意味著Yioop! 有時會跟隨URL縮短連結或其他重定向到一個robots.txt會拒絕它訪問的頁面。自2012年3月起,Yioop!不使用cURL的這一功能,而是提取一個連結,該連結必須通過與所有其他連結一樣的排隊和robots.txt檢查。

Yioop Bot改變其行為的速度有多快

當我的機器爬行時間超過一天時,它們會快取 robots.txt 檔案。它們使用快取的指令,而不是重新請求robots.txt檔案,24小時後才再次對robots.txt檔案進行新的請求。因此,如果你改變了你的robots.txt檔案,在我的爬蟲注意到這些變化之前,可能需要花一點時間。

聯絡資訊

如果您對Chris Pollett的爬蟲有任何疑問,請隨時聯絡Chris Pollett(chris@pollett.org)。

常見蜘蛛/爬蟲

Common Spiders
Mithril
Mithril蜘蛛/爬蟲屬於搜尋引擎型別,由University of Michigan開發執行。您可以繼續閱讀下方資訊,以深入瞭解Mithril基本資訊,使用者代理和訪問控制等。
fynd.bot crawler
fynd.bot crawler蜘蛛/爬蟲屬於搜尋引擎型別,由fynd.bot開發執行。您可以繼續閱讀下方資訊,以深入瞭解fynd.bot crawler基本資訊,使用者代理和訪問控制等。
Alibaba crawler
Alibaba crawler蜘蛛/爬蟲屬於搜尋引擎型別,由Alibaba Group開發執行。您可以繼續閱讀下方資訊,以深入瞭解Alibaba crawler基本資訊,使用者代理和訪問控制等。
Googlebot
GoogleBot蜘蛛/爬蟲屬於搜尋引擎型別,由Google Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解GoogleBot基本資訊,使用者代理和訪問控制等。
Swisscows Crawler
Swisscows Crawler蜘蛛/爬蟲屬於搜尋引擎型別,由Swisscows AG開發執行。您可以繼續閱讀下方資訊,以深入瞭解Swisscows Crawler基本資訊,使用者代理和訪問控制等。
star-finder.de Bot
star-finder.de Bot蜘蛛/爬蟲屬於搜尋引擎型別,由projektnet開發執行。您可以繼續閱讀下方資訊,以深入瞭解star-finder.de Bot基本資訊,使用者代理和訪問控制等。
SeznamBot
SeznamBot蜘蛛/爬蟲屬於搜尋引擎型別,由Seznam.cz, a.s.開發執行。您可以繼續閱讀下方資訊,以深入瞭解SeznamBot基本資訊,使用者代理和訪問控制等。
MojeekBot
MojeekBot蜘蛛/爬蟲屬於搜尋引擎型別,由Mojeek Ltd.開發執行。您可以繼續閱讀下方資訊,以深入瞭解MojeekBot基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles