Scrapy

Scrapy蜘蛛/爬虫属于爬虫类型,由Zyte开发运行。您可以继续阅读下方信息,以深入了解Scrapy基本信息,用户代理和访问控制等。

基本信息

Scrapy的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
Scrapy
类型
爬虫
开发商
Zyte
当前状态
活动

用户代理

关于Scrapy蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
Scrapy/2.11.2
用户代理字符串
Scrapy/2.11.2 (+https://scrapy.org)
首次出现
2024-06-28 05:06:35
最后出现
2025-01-09 08:23:21
遵循robots.txt
未知
来源
IP地址(7) 服务器名称 所属国家
185.182.232.46 185.182.232.46 DE
155.254.51.43 155.254.51.43 GB
185.214.198.228 185.214.198.228 FR
4.226.43.141 4.226.43.141 CH
35.204.148.234 234.148.204.35.bc.googleusercontent.com NL
34.147.120.7 7.120.147.34.bc.googleusercontent.com NL
35.204.181.133 133.181.204.35.bc.googleusercontent.com NL
用户代理字符串
Scrapy/2.11.1 (+https://scrapy.org)
首次出现
2024-03-19 08:46:40
最后出现
2024-12-26 08:09:56
遵循robots.txt
未知
来源
IP地址(10) 服务器名称 所属国家
91.107.213.136 static.136.213.107.91.clients.your-server.de DE
162.55.168.120 static.120.168.55.162.clients.your-server.de DE
49.13.139.227 static.227.139.13.49.clients.your-server.de DE
116.202.100.106 static.106.100.202.116.clients.your-server.de DE
188.34.167.47 static.47.167.34.188.clients.your-server.de DE
49.13.126.20 static.20.126.13.49.clients.your-server.de DE
128.140.85.122 static.122.85.140.128.clients.your-server.de DE
49.13.53.188 static.188.53.13.49.clients.your-server.de DE
47.236.177.76 47.236.177.76 SG
51.178.26.232 vps-0cd8feaf.vps.ovh.net FR
用户代理字符串
Scrapy/2.6.3 (+https://scrapy.org)
首次出现
2023-08-03 18:44:39
最后出现
2024-10-25 06:06:52
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
34.29.54.138 138.54.29.34.bc.googleusercontent.com US
199.223.234.1 1.234.223.199.bc.googleusercontent.com US
用户代理字符串
Scrapy/2.8.0 (+https://scrapy.org)
首次出现
2023-02-05 22:33:02
最后出现
2024-09-16 20:26:27
遵循robots.txt
未知
来源
IP地址(20) 服务器名称 所属国家
89.24.145.140 89-24-145-140.customers.tmcz.cz CZ
171.221.61.96 171.221.61.96 CN
192.9.248.72 ? US
34.27.23.105 105.23.27.34.bc.googleusercontent.com US
104.154.228.190 190.228.154.104.bc.googleusercontent.com US
35.192.116.164 164.116.192.35.bc.googleusercontent.com US
35.224.118.65 65.118.224.35.bc.googleusercontent.com US
35.192.40.136 136.40.192.35.bc.googleusercontent.com US
34.41.63.205 205.63.41.34.bc.googleusercontent.com US
34.170.34.250 250.34.170.34.bc.googleusercontent.com US
34.69.163.244 244.163.69.34.bc.googleusercontent.com US
34.29.13.147 147.13.29.34.bc.googleusercontent.com US
34.170.11.231 231.11.170.34.bc.googleusercontent.com US
35.202.239.24 24.239.202.35.bc.googleusercontent.com US
34.135.125.76 76.125.135.34.bc.googleusercontent.com US
34.135.155.68 68.155.135.34.bc.googleusercontent.com US
34.71.173.104 104.173.71.34.bc.googleusercontent.com US
34.123.92.193 193.92.123.34.bc.googleusercontent.com US
34.42.253.119 119.253.42.34.bc.googleusercontent.com US
134.169.32.5 134.169.32.5 DE
用户代理字符串
Scrapy/2.0.1 (+https://scrapy.org)
首次出现
2024-04-27 23:11:01
最后出现
2024-05-21 03:56:46
遵循robots.txt
未知
来源
IP地址(5) 服务器名称 所属国家
138.201.57.139 static.139.57.201.138.clients.your-server.de DE
88.99.214.242 static.242.214.99.88.clients.your-server.de DE
5.9.90.24 static.24.90.9.5.clients.your-server.de DE
136.243.134.82 static.82.134.243.136.clients.your-server.de DE
148.251.133.219 static.219.133.251.148.clients.your-server.de DE
用户代理字符串
Scrapy/2.11.0 (+https://scrapy.org)
首次出现
2024-01-04 09:09:43
最后出现
2024-05-16 09:11:31
遵循robots.txt
未知
来源
IP地址(5) 服务器名称 所属国家
112.49.240.214 112.49.240.214 CN
223.73.191.20 223.73.191.20 CN
222.185.36.65 222.185.36.65 CN
77.181.127.82 dynamic-077-181-127-082.77.181.pool.telefonica.de DE
49.37.117.241 49.37.117.241 IN
用户代理字符串
Scrapy/1.7.3 (+https://scrapy.org)
首次出现
2019-08-16 06:35:10
最后出现
2024-03-16 08:02:20
遵循robots.txt
未知
来源
IP地址(8) 服务器名称 所属国家
154.19.200.18 154.19.200.18 US
27.224.137.106 27.224.137.106 CN
124.160.236.43 124.160.236.43 CN
78.47.48.49 ? DE
128.91.91.211 hpcc017.wharton.upenn.edu US
128.91.88.38 hpcc032.wharton.upenn.edu US
38.242.214.236 vmi888550.contaboserver.net DE
38.242.214.232 vmi888549.contaboserver.net DE
用户代理字符串
Scrapy/2.9.0 (+https://scrapy.org)
首次出现
2023-07-08 12:50:36
最后出现
2024-02-22 05:43:33
遵循robots.txt
未知
来源
IP地址(5) 服务器名称 所属国家
150.109.18.41 150.109.18.41 SG
54.152.101.126 ec2-54-152-101-126.compute-1.amazonaws.com US
154.13.203.88 154.13.203.88 US
52.128.13.174 52.128.13.174 US
3.73.63.44 ec2-3-73-63-44.eu-central-1.compute.amazonaws.com DE
用户代理字符串
Scrapy/1.7.4 (+https://scrapy.org)
首次出现
2021-03-28 12:45:23
最后出现
2023-09-15 03:34:15
遵循robots.txt
未知
来源
IP地址(5) 服务器名称 所属国家
95.216.173.132 static.132.173.216.95.clients.your-server.de FI
95.216.173.189 static.189.173.216.95.clients.your-server.de FI
65.21.253.28 static.28.253.21.65.clients.your-server.de FI
88.99.170.66 static.66.170.99.88.clients.your-server.de DE
116.203.206.201 static.201.206.203.116.clients.your-server.de DE
用户代理字符串
Scrapy/2.10.0 (+https://scrapy.org)
首次出现
2023-08-27 17:31:21
最后出现
2023-08-27 17:31:21
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
176.42.28.173 176.42.28.173 TR
用户代理字符串
Scrapy/2.6.1 (+https://scrapy.org)
首次出现
2022-03-26 07:45:49
最后出现
2023-04-11 07:34:22
遵循robots.txt
未知
来源
IP地址(8) 服务器名称 所属国家
23.247.47.198 23.247.47.198 US
104.154.180.126 126.180.154.104.bc.googleusercontent.com US
173.212.239.43 173.212.239.43 DE
95.216.46.199 static.199.46.216.95.clients.your-server.de FI
45.9.88.123 45.9.88.123 RU
37.35.43.58 37.35.43.58 IT
154.194.8.121 154.194.8.121 FR
52.72.8.185 ec2-52-72-8-185.compute-1.amazonaws.com US
用户代理字符串
Scrapy/2.6.2 (+https://scrapy.org)
首次出现
2023-01-22 19:28:46
最后出现
2023-03-26 23:16:58
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
61.135.204.194 61.135.204.194 CN
46.2.14.184 ? TR
用户代理字符串
Scrapy/2.7.1 (+https://scrapy.org)
首次出现
2023-01-29 23:30:42
最后出现
2023-02-02 13:18:10
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
90.154.10.130 90.154.10.130 RU
79.110.55.10 79.110.55.10 KR
用户代理字符串
Scrapy/2.4.1 (+https://scrapy.org)
首次出现
2021-03-25 04:33:03
最后出现
2022-10-20 07:16:34
遵循robots.txt
未知
来源
IP地址(4) 服务器名称 所属国家
52.72.8.185 ec2-52-72-8-185.compute-1.amazonaws.com US
142.255.86.85 cpe-142-255-86-85.nyc.res.rr.com US
175.102.16.34 175.102.16.34 CN
183.253.10.84 183.253.10.84 CN
用户代理字符串
Scrapy/2.5.1 (+https://scrapy.org),gzip(gfe)
首次出现
2022-10-17 10:38:17
最后出现
2022-10-17 10:38:17
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
118.166.228.227 118-166-228-227.dynamic-ip.hinet.net TW
88.99.214.242 static.242.214.99.88.clients.your-server.de DE
194.15.127.107 194.15.127.107 RU
45.9.88.123 45.9.88.123 RU
3.123.200.64 ec2-3-123-200-64.eu-central-1.compute.amazonaws.com DE
62.76.155.21 62.76.155.21 RU
52.72.8.185 ec2-52-72-8-185.compute-1.amazonaws.com US
14.139.127.131 14.139.127.131 IN
176.103.91.127 176.103.91.127 RU
34.85.151.35 35.151.85.34.bc.googleusercontent.com US
66.249.81.109 google-proxy-66-249-81-109.google.com US
193.232.205.105 193.232.205.105 RU
212.193.168.225 212.193.168.225 RU
62.76.7.12 62.76.7.12 RU
45.147.0.40 45.147.0.40 RU
62.76.155.146 62.76.155.146 RU
45.139.126.183 45.139.126.183 RU
45.139.55.19 45.139.55.19 RU
94.158.189.159 94.158.189.159 SC
194.226.123.223 194.226.123.223 RU
45.146.168.134 45.146.168.134 RU
45.130.144.233 45.130.144.233 RU
195.19.169.199 195.19.169.199 RU
45.153.52.77 45.153.52.77 RU
45.154.163.170 45.154.163.170 RU
77.83.80.207 77.83.80.207 RU
212.193.187.8 212.193.187.8 RU
45.142.73.232 45.142.73.232 RU
193.232.204.171 193.232.204.171 RU
85.142.42.20 85.142.42.20 RU
84.54.29.239 84.54.29.239 RU
212.193.184.172 212.193.184.172 RU
用户代理字符串
Scrapy/1.1.3 (+http://scrapy.org)
首次出现
2018-03-10 17:09:30
最后出现
2022-08-29 20:04:55
遵循robots.txt
未知
来源
IP地址(8) 服务器名称 所属国家
88.99.0.174 static.174.0.99.88.clients.your-server.de DE
148.251.144.116 static.116.144.251.148.clients.your-server.de DE
46.4.114.158 static.158.114.4.46.clients.your-server.de DE
116.202.83.62 ? DE
88.99.164.194 ? DE
138.201.34.140 ? DE
195.201.85.124 ? DE
138.201.36.40 ? DE
用户代理字符串
Scrapy/1.5.1 (+https://scrapy.org)
首次出现
2018-09-05 13:34:29
最后出现
2021-12-09 04:54:59
遵循robots.txt
未知
来源
IP地址(21) 服务器名称 所属国家
13.56.111.204 ec2-13-56-111-204.us-west-1.compute.amazonaws.com US
54.172.91.236 ec2-54-172-91-236.compute-1.amazonaws.com US
121.156.47.204 ? KR
195.3.144.210 colo-200.altnet.lv LV
189.120.120.204 bd7878cc.virtua.com.br BR
195.3.144.185 colo-185.altnet.lv LV
83.137.2.249 ? GB
78.145.209.112 host-78-145-209-112.as13285.net GB
208.110.66.34 ? US
188.92.74.189 ? LV
用户代理字符串
Scrapy/2.5.0 (+https://scrapy.org)
首次出现
2021-08-10 20:54:06
最后出现
2021-11-24 23:39:36
遵循robots.txt
未知
来源
IP地址(3) 服务器名称 所属国家
185.58.206.67 ih2083552.ihor-dedic.ru RU
137.184.96.247 137.184.96.247 US
35.223.102.40 40.102.223.35.bc.googleusercontent.com US
用户代理字符串
Scrapy/1.5.0 (+https://scrapy.org)
首次出现
2018-01-15 20:38:07
最后出现
2021-07-29 22:13:37
遵循robots.txt
来源
IP地址(27) 服务器名称 所属国家
100.25.46.189 ec2-100-25-46-189.compute-1.amazonaws.com US
54.152.77.31 ec2-54-152-77-31.compute-1.amazonaws.com US
52.86.112.146 ec2-52-86-112-146.compute-1.amazonaws.com US
13.56.179.125 ec2-13-56-179-125.us-west-1.compute.amazonaws.com US
104.144.97.164 ? US
52.193.88.113 ec2-52-193-88-113.ap-northeast-1.compute.amazonaws.com JP
34.232.52.147 ec2-34-232-52-147.compute-1.amazonaws.com US
121.156.47.204 ? KR
35.193.175.92 ? US
54.236.48.97 ec2-54-236-48-97.compute-1.amazonaws.com US
用户代理字符串
Scrapy/2.2.1 (+https://scrapy.org)
首次出现
2021-01-28 17:17:23
最后出现
2021-01-28 17:17:23
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
34.76.170.167 167.170.76.34.bc.googleusercontent.com US
34.76.224.176 176.224.76.34.bc.googleusercontent.com US
用户代理字符串
Scrapy/2.3.0 (+https://scrapy.org)
首次出现
2020-11-07 05:39:00
最后出现
2021-01-04 07:55:09
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
2a01:4f9:c010:eaec::1 2a01:4f9:c010:eaec::1 DE
51.15.119.74 74-119-15-51.instances.scw.cloud FR
用户代理字符串
Scrapy/1.8.0 (+https://scrapy.org)
首次出现
2019-11-11 05:12:58
最后出现
2021-01-03 04:29:13
遵循robots.txt
未知
来源
IP地址(7) 服务器名称 所属国家
107.178.236.15 15.236.178.107.gae.googleusercontent.com US
35.202.86.46 46.86.202.35.bc.googleusercontent.com US
47.89.225.105 ? US
160.114.55.188 rgai3.inf.u-szeged.hu HU
123.25.21.157 mail.soft365.com.vn VN
14.238.15.74 static.vnpt.vn VN
47.90.241.157 47.90.241.157 US
用户代理字符串
Scrapy/1.6.0 (+https://scrapy.org)
首次出现
2019-02-04 21:58:11
最后出现
2020-10-19 13:26:38
遵循robots.txt
未知
来源
IP地址(62) 服务器名称 所属国家
138.201.35.152 static.152.35.201.138.clients.your-server.de DE
138.201.36.40 static.40.36.201.138.clients.your-server.de DE
80.211.112.51 host51-112-211-80.serverdedicati.aruba.it IT
39.100.157.53 ? CN
39.100.156.45 ? CN
93.137.135.119 93-137-135-119.adsl.net.t-com.hr HR
47.92.141.136 ? CN
39.100.121.198 ? CN
47.92.96.33 ? CN
39.100.156.237 ? CN
用户代理字符串
Scrapy/2.2.0 (+https://scrapy.org)
首次出现
2020-07-06 11:04:52
最后出现
2020-07-06 11:12:46
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
185.153.151.34 185.153.151.34 LU
用户代理字符串
Scrapy/2.1.0 (+https://scrapy.org)
首次出现
2020-07-01 14:16:52
最后出现
2020-07-01 14:52:14
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
82.102.19.196 ncopus196.niliny.pw BE
用户代理字符串
Scrapy/1.7.2 (+https://scrapy.org)
首次出现
2019-10-17 16:38:47
最后出现
2020-06-25 04:38:18
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
176.74.192.99 hbase7.domaincrawler.com SE
176.74.199.2 ? SE
用户代理字符串
Scrapy/1.4.0 (+http://scrapy.org)
首次出现
2017-07-28 16:43:00
最后出现
2020-01-13 13:16:28
遵循robots.txt
来源
IP地址(51) 服务器名称 所属国家
36.226.224.37 36-226-224-37.dynamic-ip.hinet.net TW
36.227.109.231 36-227-109-231.dynamic-ip.hinet.net TW
36.224.51.7 36-224-51-7.dynamic-ip.hinet.net TW
36.226.231.20 36-226-231-20.dynamic-ip.hinet.net TW
36.228.229.79 36-228-229-79.dynamic-ip.hinet.net TW
36.228.229.94 36-228-229-94.dynamic-ip.hinet.net TW
36.226.224.54 36-226-224-54.dynamic-ip.hinet.net TW
36.228.225.171 36-228-225-171.dynamic-ip.hinet.net TW
36.228.224.131 36-228-224-131.dynamic-ip.hinet.net TW
36.226.230.208 36-226-230-208.dynamic-ip.hinet.net TW
用户代理字符串
Scrapy/1.0.5 (+http://scrapy.org)
首次出现
2016-02-12 15:26:00
最后出现
2019-12-30 08:01:46
遵循robots.txt
来源
IP地址(12) 服务器名称 所属国家
136.243.11.22 ? DE
78.46.88.202 ? DE
136.243.76.224 ? DE
58.246.174.26 ? CN
52.198.176.249 ec2-52-198-176-249.ap-northeast-1.compute.amazonaws.com JP
52.196.217.192 ec2-52-196-217-192.ap-northeast-1.compute.amazonaws.com JP
52.201.250.99 ec2-52-201-250-99.compute-1.amazonaws.com US
52.68.41.151 ec2-52-68-41-151.ap-northeast-1.compute.amazonaws.com JP
164.132.160.129 ns3035942.ip-164-132-160.eu FR
93.186.148.94 93.186.148.94-ifnl.net GB
用户代理字符串
Scrapy/1.7.1 (+https://scrapy.org)
首次出现
2019-08-06 08:42:08
最后出现
2019-08-27 11:30:05
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
147.92.33.234 147.92.33.234 HK
8.44.182.23 ? US
用户代理字符串
Scrapy/1.5.2 (+https://scrapy.org)
首次出现
2019-02-03 19:06:16
最后出现
2019-07-07 06:18:17
遵循robots.txt
未知
来源
IP地址(3) 服务器名称 所属国家
130.203.136.75 ? US
185.47.220.131 ? CZ
188.175.125.148 188.175.125.148 CZ
用户代理字符串
Scrapy/1.0.3 (+http://scrapy.org)
首次出现
2015-12-14 08:00:00
最后出现
2018-05-11 07:16:04
遵循robots.txt
来源
IP地址(21) 服务器名称 所属国家
54.160.194.98 ec2-54-160-194-98.compute-1.amazonaws.com US
61.164.42.140 ? CN
139.59.29.77 ? IN
52.88.187.57 ec2-52-88-187-57.us-west-2.compute.amazonaws.com US
108.61.242.65 108.61.242.65.vultr.com US
46.166.188.231 ? NL
52.40.148.43 ec2-52-40-148-43.us-west-2.compute.amazonaws.com US
54.69.99.109 ec2-54-69-99-109.us-west-2.compute.amazonaws.com US
108.83.93.215 108-83-93-215.lightspeed.wepbfl.sbcglobal.net US
108.61.205.28 108.61.205.28.vultr.com US
用户代理字符串
Scrapy/1.3.0 (+http://scrapy.org)
首次出现
2017-01-30 01:37:54
最后出现
2018-04-27 06:46:07
遵循robots.txt
未知
来源
IP地址(5) 服务器名称 所属国家
13.57.36.202 ec2-13-57-36-202.us-west-1.compute.amazonaws.com US
104.218.141.98 ? US
23.106.83.199 ? US
23.81.67.216 ? US
136.243.66.162 ? DE
用户代理字符串
Scrapy/1.1.2 (+http://scrapy.org)
首次出现
2016-09-10 01:45:54
最后出现
2018-03-19 11:01:04
遵循robots.txt
未知
来源
IP地址(8) 服务器名称 所属国家
13.113.121.129 ec2-13-113-121-129.ap-northeast-1.compute.amazonaws.com JP
52.197.188.46 ec2-52-197-188-46.ap-northeast-1.compute.amazonaws.com JP
52.68.219.226 ec2-52-68-219-226.ap-northeast-1.compute.amazonaws.com JP
13.113.12.64 ec2-13-113-12-64.ap-northeast-1.compute.amazonaws.com JP
52.199.78.154 ec2-52-199-78-154.ap-northeast-1.compute.amazonaws.com JP
52.199.104.67 ec2-52-199-104-67.ap-northeast-1.compute.amazonaws.com JP
52.43.49.188 ec2-52-43-49-188.us-west-2.compute.amazonaws.com US
52.25.226.122 ec2-52-25-226-122.us-west-2.compute.amazonaws.com US
用户代理字符串
Scrapy/1.3.2 (+http://scrapy.org)
首次出现
2017-12-20 10:34:45
最后出现
2017-12-20 10:34:45
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
111.200.195.186 111.200.195.186 CN
用户代理字符串
Scrapy/1.3.3 (+http://scrapy.org)
首次出现
2017-02-08 11:05:24
最后出现
2017-11-07 09:12:10
遵循robots.txt
未知
来源
IP地址(8) 服务器名称 所属国家
13.114.207.110 ec2-13-114-207-110.ap-northeast-1.compute.amazonaws.com JP
52.196.202.55 ec2-52-196-202-55.ap-northeast-1.compute.amazonaws.com JP
34.208.16.193 ec2-34-208-16-193.us-west-2.compute.amazonaws.com US
107.23.10.123 ec2-107-23-10-123.compute-1.amazonaws.com US
54.167.210.113 ec2-54-167-210-113.compute-1.amazonaws.com US
176.27.243.42 b01bf32a.bb.sky.com GB
124.72.95.10 ? CN
45.33.43.32 li993-32.members.linode.com US
用户代理字符串
Scrapy/0.16.5 (+http://scrapy.org)
首次出现
2016-08-18 20:17:35
最后出现
2017-08-16 09:26:14
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
98.100.180.20 rrcs-98-100-180-20.central.biz.rr.com US
67.53.77.196 rrcs-67-53-77-196.west.biz.rr.com US
用户代理字符串
Scrapy/0.24.5 (+http://scrapy.org)
首次出现
2014-12-19 09:53:17
最后出现
2017-04-14 00:30:33
遵循robots.txt
未知
来源
IP地址(5) 服务器名称 所属国家
52.197.129.56 ec2-52-197-129-56.ap-northeast-1.compute.amazonaws.com JP
52.69.69.138 ec2-52-69-69-138.ap-northeast-1.compute.amazonaws.com JP
52.192.241.191 ec2-52-192-241-191.ap-northeast-1.compute.amazonaws.com JP
107.23.56.124 ec2-107-23-56-124.compute-1.amazonaws.com US
52.69.82.104 ec2-52-69-82-104.ap-northeast-1.compute.amazonaws.com JP
用户代理字符串
Scrapy/1.2.2 (+http://scrapy.org)
首次出现
2017-01-12 23:59:17
最后出现
2017-03-26 23:59:17
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
52.200.30.172 ec2-52-200-30-172.compute-1.amazonaws.com US
用户代理字符串
Scrapy/1.0.5.post4+g4b324a8 (+http://scrapy.org)
首次出现
2017-01-07 23:32:39
最后出现
2017-01-07 23:32:39
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
98.126.65.56 ? US
用户代理字符串
Scrapy/1.2.1 (+http://scrapy.org)
首次出现
2016-11-09 23:25:03
最后出现
2016-12-13 16:37:29
遵循robots.txt
未知
来源
IP地址(3) 服务器名称 所属国家
5.230.153.214 ? GB
178.18.151.162 ? CZ
54.213.151.77 ec2-54-213-151-77.us-west-2.compute.amazonaws.com US
用户代理字符串
Scrapy/1.1.1 (+http://scrapy.org)
首次出现
2016-09-11 07:43:33
最后出现
2016-12-04 14:34:58
遵循robots.txt
来源
IP地址(3) 服务器名称 所属国家
138.201.52.218 ? DE
134.96.225.227 colossus02.cs.uni-saarland.de DE
192.240.14.1 host01.fna.fujitsu.com US
用户代理字符串
Scrapy/1.1.0 (+http://scrapy.org)
首次出现
2016-06-12 20:00:00
最后出现
2016-09-01 16:03:46
遵循robots.txt
来源
IP地址(4) 服务器名称 所属国家
138.201.57.140 ? DE
148.251.133.219 ? DE
192.240.14.1 host01.fna.fujitsu.com US
92.249.223.121 92-249-223-121.pool.digikabel.hu HU
用户代理字符串
Scrapy/1.0.4 (+http://scrapy.org)
首次出现
2016-01-27 06:10:00
最后出现
2016-02-19 11:08:30
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
103.14.245.38 103.14.245.38 SG
219.92.50.109 gbk-50-109.tm.net.my MY
用户代理字符串
Scrapy/1.0.1 (+http://scrapy.org)
首次出现
2015-02-07 05:07:09
最后出现
2016-02-10 14:16:41
遵循robots.txt
未知
来源
IP地址(3) 服务器名称 所属国家
194.150.168.95 kaputte.li DE
46.105.110.61 ns3435966.ip-46-105-110.eu FR
158.69.26.33 ns517020.ip-158-69-26.net CA
用户代理字符串
Scrapy/0.24.0 (+http://scrapy.org)
首次出现
2014-08-08 09:15:00
最后出现
2015-12-05 09:29:21
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
114.212.190.201 cs-cloud.nju.edu.cn CN
54.72.183.135 ec2-54-72-183-135.eu-west-1.compute.amazonaws.com US
用户代理字符串
Scrapy/0.24.6 (+http://scrapy.org)
首次出现
2015-08-19 21:13:23
最后出现
2015-08-19 21:13:23
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
188.40.45.131 ? DE
用户代理字符串
Scrapy/0.25.1 (+http://scrapy.org)
首次出现
2015-04-08 18:52:07
最后出现
2015-04-08 18:52:08
遵循robots.txt
未知
来源
IP地址(1) 服务器名称 所属国家
69.124.113.52 ool-457c7134.dyn.optonline.net US
用户代理字符串
Scrapy/0.24.4 (+http://scrapy.org)
首次出现
2015-12-01 07:19:29
最后出现
2014-12-10 23:03:17
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
97.74.4.58 ip-97-74-4-58.ip.secureserver.net US
54.72.183.135 ec2-54-72-183-135.eu-west-1.compute.amazonaws.com IE
用户代理字符串
Scrapy/0.22.2 (+http://scrapy.org)
首次出现
2014-02-18 10:40:06
最后出现
2014-06-18 20:56:00
遵循robots.txt
未知
来源
IP地址(2) 服务器名称 所属国家
201.204.48.114 201.204.48.114 CR
64.53.192.27 d53-64-27-192.nap.wideopenwest.com US

访问控制

了解如何控制Scrapy访问权限,避免Scrapy抓取行为不当。

是否拦截Scrapy?

可以考虑拦截。。爬虫通常会下载公开的互联网内容,这些内容默认情况下可以免费访问。不过,如果你不希望你的内容被用于未经授权的目的,你应该拦截它们。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 Scrapy 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

	# robots.txt
	# 下列代码一般情况可以拦截该代理
	
	User-agent: Scrapy
	Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

一个开源的协作框架,用于从网站中提取你需要的数据。

以一种快速、简单而又可扩展的方式。

由Zyte(以前的Scrapinghub)和许多其他贡献者维护。

常见蜘蛛/爬虫

Common Spiders
HanaleiBot
HanaleiBot蜘蛛/爬虫属于爬虫类型,由Unknown Author开发运行。您可以继续阅读下方信息,以深入了解HanaleiBot基本信息,用户代理和访问控制等。
TimeTravelAggregator-lanl
TimeTravelAggregator-lanl蜘蛛/爬虫属于爬虫类型,由Unknown Author开发运行。您可以继续阅读下方信息,以深入了解TimeTravelAggregator-lanl基本信息,用户代理和访问控制等。
fedcrawl
fedcrawl蜘蛛/爬虫属于爬虫类型,由Unknown Author开发运行。您可以继续阅读下方信息,以深入了解fedcrawl基本信息,用户代理和访问控制等。
TestCrawler
TestCrawler蜘蛛/爬虫属于爬虫类型,由Unknown Author开发运行。您可以继续阅读下方信息,以深入了解TestCrawler基本信息,用户代理和访问控制等。
linus-torvalds-loves-you
linus-torvalds-loves-you蜘蛛/爬虫属于爬虫类型,由Unknown Author开发运行。您可以继续阅读下方信息,以深入了解linus-torvalds-loves-you基本信息,用户代理和访问控制等。
Guest
Guest蜘蛛/爬虫属于爬虫类型,由Unknown Author开发运行。您可以继续阅读下方信息,以深入了解Guest基本信息,用户代理和访问控制等。
white-analyz-bug
white-analyz-bug蜘蛛/爬虫属于爬虫类型,由Unknown Author开发运行。您可以继续阅读下方信息,以深入了解white-analyz-bug基本信息,用户代理和访问控制等。
Gensparkbot
Gensparkbot蜘蛛/爬虫属于爬虫类型,由Unknown Author开发运行。您可以继续阅读下方信息,以深入了解Gensparkbot基本信息,用户代理和访问控制等。

相关文章

Related Articles