NLNZ_IAHarvester

基本資訊

NLNZ_IAHarvester的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲，可能存在資訊不明的情況。

蜘蛛/爬蟲名稱: NLNZ_IAHarvester

型別: 其他

開發商: National Library of New Zealand

當前狀態: 活動

使用者代理

關於NLNZ_IAHarvester蜘蛛或者爬蟲的使用者代理字串，IP地址和伺服器，所在地等資訊如下表格所示：

使用者代理字串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2024/3.3.0; +https://natlib.govt.nz/publishers-and-authors/web-harvesting/domain-harvest)

首次出現: 2024-05-14 11:16:02

最後出現: 2024-05-28 09:17:42

遵循robots.txt: 未知

來源

IP地址(2)	伺服器名稱	所屬國家
207.241.235.85	wbgrp-crawl047.us.archive.org	US
207.241.234.202	wbgrp-crawl044.us.archive.org	US

使用者代理字串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2017/3.3.0 +https://natlib.govt.nz/publishers-and-authors/web-harvesting/domain-harvest)

首次出現: 2017-04-07 15:10:42

最後出現: 2017-04-11 10:56:22

遵循robots.txt: 未知

來源

IP地址(1)	伺服器名稱	所屬國家
207.241.231.103	wbgrp-svc211.us.archive.org	US

使用者代理字串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2016/3.3.0 +https://natlib.govt.nz/publishers-and-authors/web-harvesting/domain-harvest)

首次出現: 2016-01-20 07:10:00

最後出現: 2017-03-30 03:46:06

遵循robots.txt: 未知

來源

IP地址(4)	伺服器名稱	所屬國家
207.241.231.59	wbgrp-crawl204.us.archive.org	US
207.241.226.40	wbgrp-crawl006.us.archive.org	US
207.241.226.41	wbgrp-crawl005.us.archive.org	US
207.241.226.39	wbgrp-crawl007.us.archive.org	US

使用者代理字串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2014 +http://natlib.govt.nz/about-us/current-initiatives/web-harvest-2014)

首次出現: 2014-12-06 08:10:00

最後出現: 2014-12-05 18:15:14

遵循robots.txt: 未知

來源

IP地址(1)	伺服器名稱	所屬國家
207.241.226.40	wbgrp-crawl006.us.archive.org	US
207.241.226.42	wbgrp-crawl004.us.archive.org	US
207.241.226.41	wbgrp-crawl005.us.archive.org	US

使用者代理字串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2014 +http://natlib.govt.nz/about-us/current-initiatives/web-harvest-2014)

首次出現: 2014-12-06 08:10:00

最後出現: 2014-12-05 18:15:14

遵循robots.txt: 未知

來源

IP地址(1)	伺服器名稱	所屬國家
207.241.226.42	wbgrp-crawl004.us.archive.org	US

使用者代理字串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2013 +http://natlib.govt.nz/about-us/current-initiatives/web-harvest-2012)

首次出現: 2013-01-19 04:48:06

最後出現: 2013-02-08 08:15:56

遵循robots.txt: 未知

來源

IP地址(4)	伺服器名稱	所屬國家
207.241.226.39	wbgrp-crawl007.us.archive.org	US
207.241.226.42	wbgrp-crawl004.us.archive.org	US
207.241.226.44	wbgrp-crawl002.us.archive.org	US
207.241.226.40	wbgrp-crawl006.us.archive.org	US

使用者代理字串: Mozilla/5.0 (compatible; NLNZ_IAHarvester2013 +http://natlib.govt.nz/about-us/current-initiatives/web-harvest-2012)

首次出現: 2013-01-19 04:48:06

最後出現: 2013-02-08 08:15:56

遵循robots.txt: 未知

來源

IP地址(4)	伺服器名稱	所屬國家
207.241.226.39	wbgrp-crawl007.us.archive.org	US
207.241.226.44	wbgrp-crawl002.us.archive.org	US
207.241.226.42	wbgrp-crawl004.us.archive.org	US
207.241.226.40	wbgrp-crawl006.us.archive.org	US

使用者代理字串: Mozilla/5.0 (compatible; archive.org_bot/3.1.2 +http://natlib.govt.nz/about-us/current-initiatives/web-harvest-2012)

首次出現: 2013-01-11 18:03:00

最後出現: 2013-01-11 18:03:01

遵循robots.txt: 未知

來源

IP地址(1)	伺服器名稱	所屬國家
207.241.226.65	wbgrp-crawl001.us.archive.org	US

訪問控制

瞭解如何控制NLNZ_IAHarvester訪問許可權，避免NLNZ_IAHarvester抓取行為不當。

是否攔截NLNZ_IAHarvester？

對於未知蜘蛛或者爬蟲。它的用途對網站來說可能是好的，也可能是壞的，這取決於它是什麼。所以說，這需要站長進一步分析判斷這些尚不明確的爬蟲行為，再作最終決定。但，根據以往的經驗，未宣告行為目的及未命名的蜘蛛爬蟲，通常都有不可告人的祕密，我們理應對其行為進行控制，比如攔截。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 NLNZ_IAHarvester 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛，以檢查它是否真正遵循這些規則。

# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: NLNZ_IAHarvester
Disallow: /

您無需手動執行此操作，可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

怎樣才算有利於SEO的網站結構

眾所周知，扁平且層級不超過三級的網站結構是最有利於搜尋引擎蜘蛛爬取的。顯淺的一句看似易懂但如深入，又未必是那麼容易理解。下面我們將深入瞭解網站結構的定義，重要性及實踐，以便於各位技術開發、站長和SEOer在未來的網站開發及運營中應用。

NLNZ_IAHarvester

基本資訊

使用者代理

訪問控制

是否攔截NLNZ_IAHarvester？

通過Robots.txt攔截

站長工具

常見蜘蛛/爬蟲

相關文章