

IP地址(5) | 伺服器名稱 | 所屬國家 |
---|---|---|
173.13.143.76 | 173-13-143-76-sfba.hfc.comcastbusiness.net | US |
173.13.143.74 | 173-13-143-74-sfba.hfc.comcastbusiness.net | US |
173.13.143.78 | 173-13-143-78-sfba.hfc.comcastbusiness.net | US |
IP地址(1) | 伺服器名稱 | 所屬國家 |
---|---|---|
95.31.13.58 | shabuninairina.static.corbina.ru | RU |
IP地址(2) | 伺服器名稱 | 所屬國家 |
---|---|---|
173.13.143.74 | 173-13-143-74-sfba.hfc.comcastbusiness.net | US |
173.13.143.78 | 173-13-143-78-sfba.hfc.comcastbusiness.net | US |
IP地址(1) | 伺服器名稱 | 所屬國家 |
---|---|---|
78.69.113.163 | 78-69-113-163-no49.tbcn.telia.com | SE |
IP地址(2) | 伺服器名稱 | 所屬國家 |
---|---|---|
173.13.143.76 | 173-13-143-76-sfba.hfc.comcastbusiness.net | US |
173.13.143.74 | 173-13-143-74-sfba.hfc.comcastbusiness.net | US |
173.13.143.78 | 173-13-143-78-sfba.hfc.comcastbusiness.net | US |
95.31.13.58 | shabuninairina.static.corbina.ru | RU |
78.69.113.163 | 78-69-113-163-no49.tbcn.telia.com | SE |
IP地址(2) | 伺服器名稱 | 所屬國家 |
---|---|---|
173.13.143.74 | 173-13-143-74-sfba.hfc.comcastbusiness.net | US |
173.13.143.78 | 173-13-143-78-sfba.hfc.comcastbusiness.net | US |
IP地址(1) | 伺服器名稱 | 所屬國家 |
---|---|---|
69.60.122.130 | 69.60.122.130 | US |
一般不要攔截。搜尋引擎爬蟲為搜尋引擎提供動力,是使用者發現您網站的有效途徑。事實上,攔截搜尋引擎爬蟲可能會嚴重減少網站的自然流量。
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 YioopBot 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: YioopBot Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。
估計你來到這個網站是因為你注意到了來自一個使用者代理的流量,該代理以字串的形式識別自己。
Mozilla/5.0 (compatible; YioopBot; +http://www.yioop.com/bot.php)
如果該IP地址也是173.13.143.73至78,那麼你就來到了正確的地方,可以瞭解到可能是誰在抓取你的網站。如果是不同的IP地址,那麼就有其他人劫持了我的爬蟲的名字。
幾年前,Chris Pollett開始在家用機器上進行實驗,以建立一個2500萬頁的索引。Chris Pollett選擇2500萬作為目標,因為這是在1998年關於谷歌的原始論文中抓取的頁面數量。Chris Pollett終於在2011年10月初實現了這個目標。Chris Pollett的下一個目標是在我的家用機器上抓取1億個頁面–這是Nutch在2003年的演示中抓取的數字。這是在2012年2月5日至3月14日期間通過Yioop實現的。以下是Chris Pollett已經/正在進行的較長時間的抓取列表:
抓取結果被用於一個實際的搜尋引擎,可在http://www.yioop.com/。這個網站得到來自世界各地的查詢。這個搜尋引擎和爬蟲的GPLv3原始碼可在http://www.seekquarry.com/。如果你真的很無聊,你可以在你的網站上實際測試這個軟體,以確認或反駁下面描述的內容。如果你發現了錯誤,最好能給Chris Pollett寫信,地址在本文末尾。
Yioop Bot目前是在少量的機器上零星地執行(不是連續地)。每臺機器有大約4-6個取樣器程序。每個採集器在任何時候最多開啟100-300個連線。在一個典型的情況下,這些連線不會都到同一個主機上。
Yioop Bot理解robots.txt(必須是robots.txt而不是robot.txt)檔案,並將服從其中的命令,但阻止抓取網站主機頁面(又稱登陸頁)的命令除外。也就是說,如果你有一個命令阻止像http://foo.com/some_path,Yioop將遵守它;但Yioop仍然可能下載頁面http://foo.com/。robots.txt必須放在你網站的根目錄下,以便遵守其指令。Yioop不會在子資料夾中尋找robots.txt檔案。一個簡單的robots.txt檔案可以阻止Yioop!抓取除主機url頁面、cool_stuff資料夾及其子資料夾以外的任何資料夾,它看起來像:
User-agent: YioopBot Disallow: / Allow: /cool_stuff/
YioopBot也服從HTML ROBOTS元標籤,內容包括none, noindex, nofollow, noarchive, nosnippet。一個使用noindex, nofollow指令的HTML頁面示例可能看起來如下。
<!DOCTYPE html > <html> <head><title>Meta Robots Example</title> <meta name="ROBOTS" content="NOINDEX,NOFOLLOW" /> <!-- The members of the content attribute must be comma separated, whitespace will be ignored--> </head> <body> <p>Stuff robots shouldn't put in their index. <a href="/somewhere">A link that nofollow will prevent from being followed</a></p> </body> </html>
YioopBot不使用開放目錄或雅虎目錄資料,所以隱含地支援noodp和noydir。YioopBot不分大小寫地進行匹配。在文件的頭部,人們也可以使用rel canonical語法指定一個對應於當前頁面的規範頁面。比如說:
<link rel="canonical" href="http://my.canonical.page.com/" />
可能會出現在一個有url http://my.canonical.page.com/?t=gratuitous_token 的頁面上,以表明這個頁面和規範頁面是一樣的。在HTML文件中,Yioop Bot會尊重錨定指令。例如,以下連結不會被Yioop Bot跟蹤:
<a href="/somewhere_else" rel="nofollow" >This link would not be followed by YioopBot</a>
Yioop Bot進一步理解了對robots.txt標準的Crawl-delay擴充套件,也理解了Sitemap指令。比如說:
User-agent: YioopBot Crawl-Delay: 10 # YioopBot will wait 10 seconds between requests Sitemap: http://www.mycoolsite.com/mycoolsitemap.xml.gz #YioopBot will eventually download
對於非HTML頁面,你可以控制Yioop Bot如何索引,跟蹤連結,以及Yioop!如何在Yioop!中顯示這些頁面的結果。網站上顯示這些網頁的結果,通過使用X-Robots-Tag HTTP頭。例如,如果你的網路伺服器在實際頁面資料(如PDF檔案)之前,作為其HTTP響應頭的一部分,傳送以下內容:
X-Robots-Tag: nosnippet
那麼,如果該PDF檔案作為搜尋結果的一部分出現,那麼搜尋結果中的連結下就不會有片段文字。如果你想為一個非html檔案指定一個規範的連結,你可以使用一個HTTP頭,比如。
Link: <http://my.canonical.page.com/sub_dir/my.pdf>; rel="canonical"
在處理robots.txt檔案時,如果Disallow和Allow行有衝突,YioopBot會優先考慮Allow指令,而不是Disallow指令,因為robots.txt的預設行為是允許一切,除了明確不允許的內容。
如果一個網頁有一個noindex元標籤,那麼它就不會出現在搜尋結果中,前提是Yioop!已經實際下載了該網頁。如果Yioop!沒有下載該網頁,或者被robots.txt檔案禁止下載該網頁,那麼該網頁的連結就有可能出現在搜尋結果中。這可能發生在另一個頁面連結到給定的頁面,而Yioop提取了這個連結及其文字,並在搜尋結果中使用它們。人們可以通過在Yioop!中輸入info:URL查詢並檢視結果來檢查一個URL是否被下載。
當處理robots.txt檔案時,YioopBot首先尋找YioopBot使用者代理塊,並提取其中列出的所有允許和不允許路徑。一旦成功,這些就構成了YioopBot用來限制其訪問你的網站的路徑。如果它找不到任何這樣的塊,它就會不分大小寫地搜尋可能包含萬用字元*的User-Agent名稱,這些名稱與YioopBot的名稱匹配。例如,*oop*,*Bot*,等等。然後,它解析所有這些塊,並使用它們來限制對你的網站的訪問。特別是,如果你有一個塊 “User-Agent: *”,後面有允許和禁止規則,但沒有YioopBot的塊,那麼這些路徑將是YioopBot使用和尊重的。
根據網站地圖規範,網站地圖指令與任何特定的使用者代理沒有關聯。因此,Yioop會在它所做的範圍內處理它發現的任何此類指令。
在2012年3月(v 0.86)之前,YioopBot在處理允許和禁止路徑時,不理解這些路徑中的*或$。”*”和”$”是谷歌、雅虎和必應支援的原始 robots.txt 規範的擴充套件。從2012年3月起,YioopBot可以理解這些擴充套件。因此,舉例來說,人們可以通過設定Disallow路徑來阻止訪問你的網站上包含查詢字串的頁面,例如:
Disallow: /*?
Yioop!利用cURL庫來下載網頁。在2012年3月(v0.86)之前,Yioop!使用cURL的自動跟蹤重定向。這意味著Yioop! 有時會跟隨URL縮短連結或其他重定向到一個robots.txt會拒絕它訪問的頁面。自2012年3月起,Yioop!不使用cURL的這一功能,而是提取一個連結,該連結必須通過與所有其他連結一樣的排隊和robots.txt檢查。
當我的機器爬行時間超過一天時,它們會快取 robots.txt 檔案。它們使用快取的指令,而不是重新請求robots.txt檔案,24小時後才再次對robots.txt檔案進行新的請求。因此,如果你改變了你的robots.txt檔案,在我的爬蟲注意到這些變化之前,可能需要花一點時間。
如果您對Chris Pollett的爬蟲有任何疑問,請隨時聯絡Chris Pollett(chris@pollett.org)。