newspaper

newspaper蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解newspaper基本資訊,使用者代理和訪問控制等。

基本資訊

newspaper的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
newspaper
型別
爬蟲
開發商
Unknown Author
當前狀態
活動

使用者代理

關於newspaper蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
newspaper/0.2.8
使用者代理字串
newspaper/0.2.8
首次出現
2021-05-19 12:20:39
最後出現
2024-05-27 06:02:29
遵循robots.txt
來源
IP地址(3228) 伺服器名稱 所屬國家
117.193.201.151 117.193.201.151 IN
120.138.12.154 ws154-12.138.120.rcil.gov.in IN
202.58.245.233 portal.vpn.sbv.gov.vn VN
3.138.116.42 ec2-3-138-116-42.us-east-2.compute.amazonaws.com US
3.137.37.131 ec2-3-137-37-131.us-east-2.compute.amazonaws.com US
20.90.109.203 20.90.109.203 GB
34.91.225.181 181.225.91.34.bc.googleusercontent.com NL
34.90.126.33 ? NL
34.147.40.21 ? NL
34.147.127.59 ? NL
54.88.225.242 ec2-54-88-225-242.compute-1.amazonaws.com US
103.28.246.155 103.28.246.155 IN
184.73.75.23 ec2-184-73-75-23.compute-1.amazonaws.com US
78.135.112.175 78.135.112.175 TR
78.135.112.166 78.135.112.166 TR
218.190.230.72 218.190.230.72 HK
75.101.208.201 ec2-75-101-208-201.compute-1.amazonaws.com US
2604:5040:11:582::95e2 2604:5040:11:582::95e2 US
44.200.177.228 ec2-44-200-177-228.compute-1.amazonaws.com US
34.233.123.243 ec2-34-233-123-243.compute-1.amazonaws.com US
169.59.167.225 e1.a7.3ba9.ip4.static.sl-reverse.com US
使用者代理字串
newspaper/0.3.0
首次出現
2021-12-28 01:18:20
最後出現
2023-08-29 09:00:29
遵循robots.txt
來源
IP地址(73) 伺服器名稱 所屬國家
35.204.103.93 93.103.204.35.bc.googleusercontent.com NL
34.141.192.60 ? NL
34.141.255.134 134.255.141.34.bc.googleusercontent.com NL
34.147.76.100 100.76.147.34.bc.googleusercontent.com NL
34.90.35.127 ? NL
34.90.194.252 ? NL
34.90.180.130 ? NL
34.141.144.103 ? NL
34.91.242.250 ? NL
34.147.97.54 54.97.147.34.bc.googleusercontent.com NL
34.237.145.43 ec2-34-237-145-43.compute-1.amazonaws.com US
3.234.224.12 ec2-3-234-224-12.compute-1.amazonaws.com US
使用者代理字串
newspaper/0.0.8
首次出現
2016-07-25 15:53:57
最後出現
2016-07-25 15:53:57
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
54.204.192.10 ec2-54-204-192-10.compute-1.amazonaws.com US

訪問控制

瞭解如何控制newspaper訪問許可權,避免newspaper抓取行為不當。

是否攔截newspaper?

可以考慮攔截。。爬蟲通常會下載公開的網際網路內容,這些內容預設情況下可以免費訪問。不過,如果你不希望你的內容被用於未經授權的目的,你應該攔截它們。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 newspaper 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: newspaper
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: newspaper Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: newspaper
Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

常見蜘蛛/爬蟲

Common Spiders
MyEducationalCrawler
MyEducationalCrawler蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解MyEducationalCrawler基本資訊,使用者代理和訪問控制等。
ZAKREGEX-Scanner
ZAKREGEX-Scanner蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解ZAKREGEX-Scanner基本資訊,使用者代理和訪問控制等。
Crawler-IP-Fetcher
Crawler-IP-Fetcher蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解Crawler-IP-Fetcher基本資訊,使用者代理和訪問控制等。
DARPResearchBot
DARPResearchBot蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解DARPResearchBot基本資訊,使用者代理和訪問控制等。
xfa1
xfa1蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解xfa1基本資訊,使用者代理和訪問控制等。
MassScanner
MassScanner蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解MassScanner基本資訊,使用者代理和訪問控制等。
robots-bulk-crawler
robots-bulk-crawler蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解robots-bulk-crawler基本資訊,使用者代理和訪問控制等。
studyBot
studyBot蜘蛛/爬蟲屬於爬蟲型別,由Unknown Author開發執行。您可以繼續閱讀下方資訊,以深入瞭解studyBot基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles