YioopBot

YioopBot蜘蛛/爬蟲屬於搜尋引擎型別，由SeekQuarry, LLC開發執行。您可以繼續閱讀下方資訊，以深入瞭解YioopBot基本資訊，使用者代理和訪問控制等。

基本資訊

YioopBot的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲，可能存在資訊不明的情況。

蜘蛛/爬蟲名稱: YioopBot

型別: 搜尋引擎

開發商: SeekQuarry, LLC

當前狀態: 活動

使用者代理

關於YioopBot蜘蛛或者爬蟲的使用者代理字串，IP地址和伺服器，所在地等資訊如下表格所示：

使用者代理字串: Mozilla/5.0 (compatible; YioopBot; +https://www.yioop.com/bot.php)

首次出現: 2019-07-15 18:47:22

最後出現: 2020-09-22 17:34:17

遵循robots.txt: 未知

來源

IP地址(5)	伺服器名稱	所屬國家
173.13.143.76	173-13-143-76-sfba.hfc.comcastbusiness.net	US
173.13.143.74	173-13-143-74-sfba.hfc.comcastbusiness.net	US
173.13.143.78	173-13-143-78-sfba.hfc.comcastbusiness.net	US

使用者代理字串: Mozilla/5.0 (compatible; Please Name Your robot; +http://192.168.1.33:23481/yioop/bot.php)

首次出現: 2018-09-25 08:59:59

最後出現: 2018-09-25 09:03:10

遵循robots.txt: 未知

來源

IP地址(1)	伺服器名稱	所屬國家
95.31.13.58	shabuninairina.static.corbina.ru	RU

使用者代理字串: Mozilla/5.0 (compatible; YioopBot; +http://173.13.143.74/bot.php)

首次出現: 2013-01-07 13:05:46

最後出現: 2015-10-15 17:48:39

遵循robots.txt: 未知

來源

IP地址(2)	伺服器名稱	所屬國家
173.13.143.74	173-13-143-74-sfba.hfc.comcastbusiness.net	US
173.13.143.78	173-13-143-78-sfba.hfc.comcastbusiness.net	US

使用者代理字串: Mozilla/5.0 (compatible; TestBot; +http://localhost/yioop/bot.php)

首次出現: 2015-08-25 07:44:05

最後出現: 2015-08-25 07:44:05

遵循robots.txt: 未知

來源

IP地址(1)	伺服器名稱	所屬國家
78.69.113.163	78-69-113-163-no49.tbcn.telia.com	SE

使用者代理字串: Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)

首次出現: 2012-03-12 19:24:27

最後出現: 2012-11-18 00:22:43

遵循robots.txt: 未知

來源

IP地址(2)	伺服器名稱	所屬國家
173.13.143.76	173-13-143-76-sfba.hfc.comcastbusiness.net	US
173.13.143.74	173-13-143-74-sfba.hfc.comcastbusiness.net	US
173.13.143.78	173-13-143-78-sfba.hfc.comcastbusiness.net	US
95.31.13.58	shabuninairina.static.corbina.ru	RU
78.69.113.163	78-69-113-163-no49.tbcn.telia.com	SE

使用者代理字串: Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)

首次出現: 2012-03-12 19:24:27

最後出現: 2012-11-18 00:22:43

遵循robots.txt: 未知

來源

IP地址(2)	伺服器名稱	所屬國家
173.13.143.74	173-13-143-74-sfba.hfc.comcastbusiness.net	US
173.13.143.78	173-13-143-78-sfba.hfc.comcastbusiness.net	US

使用者代理字串: Mozilla/5.0 (compatible; gofind; +http://govid.mobi/bot.php)

首次出現: 2012-04-09 10:20:42

最後出現: 2012-04-06 19:37:19

遵循robots.txt: 未知

來源

IP地址(1)	伺服器名稱	所屬國家
69.60.122.130	69.60.122.130	US

訪問控制

瞭解如何控制YioopBot訪問許可權，避免YioopBot抓取行為不當。

是否攔截YioopBot？

一般不要攔截。搜尋引擎爬蟲為搜尋引擎提供動力，是使用者發現您網站的有效途徑。事實上，攔截搜尋引擎爬蟲可能會嚴重減少網站的自然流量。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 YioopBot 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛，以檢查它是否真正遵循這些規則。

# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: YioopBot
Disallow: /

您無需手動執行此操作，可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

如何識別Yioop Bot

估計你來到這個網站是因為你注意到了來自一個使用者代理的流量，該代理以字串的形式識別自己。

Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)

如果該IP地址也是173.13.143.73至78，那麼你就來到了正確的地方，可以瞭解到可能是誰在抓取你的網站。如果是不同的IP地址，那麼就有其他人劫持了我的爬蟲的名字。

誰在執行Yioop Bot

幾年前，Chris Pollett開始在家用機器上進行實驗，以建立一個2500萬頁的索引。Chris Pollett選擇2500萬作為目標，因為這是在1998年關於谷歌的原始論文中抓取的頁面數量。Chris Pollett終於在2011年10月初實現了這個目標。Chris Pollett的下一個目標是在我的家用機器上抓取1億個頁面–這是Nutch在2003年的演示中抓取的數字。這是在2012年2月5日至3月14日期間通過Yioop實現的。以下是Chris Pollett已經/正在進行的較長時間的抓取列表：

May. 24, 2019 – . 測試爬行序列，希望能在新的十億頁爬行中達到高潮。
Oct. 10, 2014 – Oct 15, 2015 . 十億個頁面。
Jul. 31, 2013 – Nov. 11, 2013 . 3.34億個頁面。
Dec. 17, 2012 – Mar. 14, 2013 . 2.76億頁。
May, 2012 – July, 2012 . 2.5億個頁面。

抓取結果被用於一個實際的搜尋引擎，可在http://www.yioop.com/。這個網站得到來自世界各地的查詢。這個搜尋引擎和爬蟲的GPLv3原始碼可在http://www.seekquarry.com/。如果你真的很無聊，你可以在你的網站上實際測試這個軟體，以確認或反駁下面描述的內容。如果你發現了錯誤，最好能給Chris Pollett寫信，地址在本文末尾。

Yioop Bot爬行網站的頻率

Yioop Bot目前是在少量的機器上零星地執行（不是連續地）。每臺機器有大約4-6個取樣器程序。每個採集器在任何時候最多開啟100-300個連線。在一個典型的情況下，這些連線不會都到同一個主機上。

你如何改變Yioop Bot對你網站的抓取方式

Yioop Bot理解robots.txt（必須是robots.txt而不是robot.txt）檔案，並將服從其中的命令，但阻止抓取網站主機頁面（又稱登陸頁）的命令除外。也就是說，如果你有一個命令阻止像http://foo.com/some_path，Yioop將遵守它；但Yioop仍然可能下載頁面http://foo.com/。robots.txt必須放在你網站的根目錄下，以便遵守其指令。Yioop不會在子資料夾中尋找robots.txt檔案。一個簡單的robots.txt檔案可以阻止Yioop！抓取除主機url頁面、cool_stuff資料夾及其子資料夾以外的任何資料夾，它看起來像：

User-agent: YioopBot	
Disallow: /
Allow: /cool_stuff/

YioopBot也服從HTML ROBOTS元標籤，內容包括none, noindex, nofollow, noarchive, nosnippet。一個使用noindex, nofollow指令的HTML頁面示例可能看起來如下。

<!DOCTYPE html >
<html>
<head><title>Meta Robots Example</title>
<meta name="ROBOTS" content="NOINDEX,NOFOLLOW" />
<!-- The members of the content attribute must be comma separated, 
whitespace will be ignored-->
</head>
<body>
<p>Stuff robots shouldn't put in their index.
<a href="/somewhere">A link that nofollow will prevent from being followed</a></p>
</body>
</html>

YioopBot不使用開放目錄或雅虎目錄資料，所以隱含地支援noodp和noydir。YioopBot不分大小寫地進行匹配。在文件的頭部，人們也可以使用rel canonical語法指定一個對應於當前頁面的規範頁面。比如說：

<link rel="canonical" href="http://my.canonical.page.com/" />

可能會出現在一個有url http://my.canonical.page.com/?t=gratuitous_token 的頁面上，以表明這個頁面和規範頁面是一樣的。在HTML文件中，Yioop Bot會尊重錨定指令。例如，以下連結不會被Yioop Bot跟蹤：

<a href="/somewhere_else" rel="nofollow" >This link would not be followed by YioopBot</a>

Yioop Bot進一步理解了對robots.txt標準的Crawl-delay擴充套件，也理解了Sitemap指令。比如說：

User-agent: YioopBot	
Crawl-Delay: 10 # YioopBot will wait 10 seconds between requests
Sitemap: http://www.mycoolsite.com/mycoolsitemap.xml.gz #YioopBot will eventually download

對於非HTML頁面，你可以控制Yioop Bot如何索引，跟蹤連結，以及Yioop！如何在Yioop！中顯示這些頁面的結果。網站上顯示這些網頁的結果，通過使用X-Robots-Tag HTTP頭。例如，如果你的網路伺服器在實際頁面資料（如PDF檔案）之前，作為其HTTP響應頭的一部分，傳送以下內容：

X-Robots-Tag: nosnippet

那麼，如果該PDF檔案作為搜尋結果的一部分出現，那麼搜尋結果中的連結下就不會有片段文字。如果你想為一個非html檔案指定一個規範的連結，你可以使用一個HTTP頭，比如。

Link: <http://my.canonical.page.com/sub_dir/my.pdf>; rel="canonical"

關於 robots.txt 和 Meta 標籤處理的更多具體資訊

在處理robots.txt檔案時，如果Disallow和Allow行有衝突，YioopBot會優先考慮Allow指令，而不是Disallow指令，因為robots.txt的預設行為是允許一切，除了明確不允許的內容。

如果一個網頁有一個noindex元標籤，那麼它就不會出現在搜尋結果中，前提是Yioop！已經實際下載了該網頁。如果Yioop！沒有下載該網頁，或者被robots.txt檔案禁止下載該網頁，那麼該網頁的連結就有可能出現在搜尋結果中。這可能發生在另一個頁面連結到給定的頁面，而Yioop提取了這個連結及其文字，並在搜尋結果中使用它們。人們可以通過在Yioop！中輸入info:URL查詢並檢視結果來檢查一個URL是否被下載。

當處理robots.txt檔案時，YioopBot首先尋找YioopBot使用者代理塊，並提取其中列出的所有允許和不允許路徑。一旦成功，這些就構成了YioopBot用來限制其訪問你的網站的路徑。如果它找不到任何這樣的塊，它就會不分大小寫地搜尋可能包含萬用字元*的User-Agent名稱，這些名稱與YioopBot的名稱匹配。例如，*oop*，*Bot*，等等。然後，它解析所有這些塊，並使用它們來限制對你的網站的訪問。特別是，如果你有一個塊 “User-Agent: *”，後面有允許和禁止規則，但沒有YioopBot的塊，那麼這些路徑將是YioopBot使用和尊重的。
根據網站地圖規範，網站地圖指令與任何特定的使用者代理沒有關聯。因此，Yioop會在它所做的範圍內處理它發現的任何此類指令。

在2012年3月（v 0.86）之前，YioopBot在處理允許和禁止路徑時，不理解這些路徑中的*或$。”*”和”$”是谷歌、雅虎和必應支援的原始 robots.txt 規範的擴充套件。從2012年3月起，YioopBot可以理解這些擴充套件。因此，舉例來說，人們可以通過設定Disallow路徑來阻止訪問你的網站上包含查詢字串的頁面，例如：

Disallow: /*?

Yioop！利用cURL庫來下載網頁。在2012年3月（v0.86）之前，Yioop！使用cURL的自動跟蹤重定向。這意味著Yioop! 有時會跟隨URL縮短連結或其他重定向到一個robots.txt會拒絕它訪問的頁面。自2012年3月起，Yioop！不使用cURL的這一功能，而是提取一個連結，該連結必須通過與所有其他連結一樣的排隊和robots.txt檢查。