Nutch Spider
Nutch Spider蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解Nutch Spider基本資訊,使用者代理和訪問控制等。
基本資訊
Nutch Spider的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
- 蜘蛛/爬蟲名稱
- Nutch Spider
- 型別
- 爬蟲
- 開發商
-
Unknown Author
- 當前狀態
-
活動
使用者代理
關於Nutch Spider蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
Nutch/Nutch-1.18
-
Nutch/Nutch-1.18
-
Nutch/Nutch-1.21
-
Nutch Spider/Nutch-1.18
-
test search engine/Nutch
-
test crawl/Nutch-1.18
-
Test/Nutch
-
Nutch Master Test
-
nutch
-
Nutraspace Spider
- 使用者代理字串
- Nutch/Nutch-1.18-SNAPSHOT
- 首次出現
- 2024-12-19 13:33:16
- 最後出現
- 2024-12-19 15:28:37
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
109.103.57.40 |
? |
RO |
- 使用者代理字串
- Nutch/Nutch-1.21-SNAPSHOT
- 首次出現
- 2024-12-16 09:13:34
- 最後出現
- 2024-12-18 19:17:50
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
109.103.57.40 |
? |
RO |
- 使用者代理字串
- Nutch Spider/Nutch-1.18
- 首次出現
- 2023-08-18 04:16:39
- 最後出現
- 2023-08-18 04:16:39
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
3.115.115.3 |
ec2-3-115-115-3.ap-northeast-1.compute.amazonaws.com |
JP |
- 使用者代理字串
- test search engine/Nutch-1.19-SNAPSHOT
- 首次出現
- 2021-09-06 07:36:41
- 最後出現
- 2021-09-06 08:49:30
- 遵循robots.txt
- 未知
- 來源
-
IP地址(2) |
伺服器名稱 |
所屬國家 |
106.201.8.74 |
? |
IN |
49.36.216.143 |
49.36.216.143 |
IN |
- 使用者代理字串
- test crawl/Nutch-1.18
- 首次出現
- 2021-08-01 05:47:04
- 最後出現
- 2021-08-01 06:39:19
- 遵循robots.txt
- 未知
- 來源
-
IP地址(3) |
伺服器名稱 |
所屬國家 |
117.97.137.226 |
abts-north-dynamic-226.137.97.117.airtelbroadband.in |
IN |
122.180.86.213 |
abts-north-static-213.86.180.122.airtelbroadband.in |
IN |
117.97.137.251 |
abts-north-dynamic-251.137.97.117.airtelbroadband.in |
IN |
- 使用者代理字串
- Test/Nutch-1.19-SNAPSHOT
- 首次出現
- 2021-06-27 05:22:20
- 最後出現
- 2021-06-27 05:22:20
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
87.239.222.170 |
87-239-222-170.static.inetia.pl |
PL |
- 使用者代理字串
- Nutch Master Test/Dolphin-0.1-Beta
- 首次出現
- 2018-12-03 18:49:23
- 最後出現
- 2018-12-03 18:49:23
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
113.101.239.117 |
113.101.239.117 |
CN |
- 使用者代理字串
- nutch
- 首次出現
- 2017-11-10 03:34:26
- 最後出現
- 2017-11-10 03:34:26
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
95.140.42.178 |
mail.revealed.ai |
HU |
- 使用者代理字串
- Nutraspace Spider/Nutch-2.3-SNAPSHOT
- 首次出現
- 2013-11-22 10:37:22
- 最後出現
- 2013-11-22 10:37:22
- 遵循robots.txt
- 未知
- 來源
-
IP地址(1) |
伺服器名稱 |
所屬國家 |
174.136.26.114 |
174.136.26.114 |
US |
訪問控制
瞭解如何控制Nutch Spider訪問許可權,避免Nutch Spider抓取行為不當。
是否攔截Nutch Spider?
可以考慮攔截。。爬蟲通常會下載公開的網際網路內容,這些內容預設情況下可以免費訪問。不過,如果你不希望你的內容被用於未經授權的目的,你應該攔截它們。
通過Robots.txt攔截
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 Nutch Spider 或限制其訪問許可權。我們建議安裝 Spider Analyser
外掛,以檢查它是否真正遵循這些規則。
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: Nutch Spider
Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: Nutch Spider
Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。