

IP地址(16) | 伺服器名稱 | 所屬國家 |
---|---|---|
199.16.185.50 | spider17.boardreader.com | US |
208.64.38.178 | 208.64.38.178 | US |
204.11.34.42 | spider12.boardreader.com | US |
199.16.186.106 | spider20.boardreader.com | US |
208.92.221.106 | spider16.boardreader.com | US |
199.16.185.58 | spider18.boardreader.com | US |
208.64.39.178 | spider7.boardreader.com | US |
199.16.189.154 | spider36.boardreader.com | US |
208.92.218.134 | spider39.boardreader.com | US |
208.92.221.98 | spider15.boardreader.com | US |
IP地址(1) | 伺服器名稱 | 所屬國家 |
---|---|---|
208.64.38.178 | 208.64.38.178 | US |
可能不需要。工具型別爬蟲通常為網站所有者使用此類工具對網站進行相關服務請求才會出現。當然,實際情況需站長判斷後再作決定。
您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 BoardReader crawler 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: BoardReader crawler Disallow: /
您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。
BoardReader crawler抓取BoardReader網路服務所收集的社交媒體資料。BoardReader是一個應用程式,它從網際網路上的多個社交媒體來源聚集資料。
為了執行BoardReader crawler,你需要一個BoardReader API金鑰。聯絡BoardReader以獲得該金鑰。
建立爬蟲:BoardReader screen是你輸入該爬蟲配置引數的地方。
Crawler name:爬蟲的名稱。允許使用字母數字字元、連字元、下劃線和空格。
Crawler description:對爬蟲的描述。
Advanced options:
BoardReader許可證金鑰:BoardReader許可證金鑰,用於呼叫BoardReader API。
抓取持續時間:選擇抓取持續時間。
開始日期:抓取的持續時間開始日期。
結束日期:要抓取的持續時間結束日期。
持續時間型別:選擇抓取的持續時間型別。該選項僅在指定期限的當前時間被選為抓取期限時顯示。
持續時間段:抓取持續時間段的數量。該選項僅在指定期限的當前時間被選為 “抓取期限 “時顯示。
域條件:要抓取的社會媒體的域列表。
查詢條件:BoardReader用來限制抓取內容的數量的查詢。爬蟲應用布林OR邏輯來組合多個查詢。
BoardReader API引數:BoardReader的API引數。例如,filter_language=ja&filter_country=jp將抓取的內容限制在源自日本的日語文件。
預設時區:預設時區,用於將日期字串值解析為紀元時間。
時區列表:指定的時區,用於解析從相應域名抓取的日期字串值。例如,*fr.yahoo.com=WET。
代理伺服器主機名稱:代理伺服器的主機名。
代理伺服器埠:代理伺服器的埠。
代理伺服器的使用者ID:訪問代理伺服器的使用者名稱。
代理伺服器的密碼:訪問代理伺服器的使用者的密碼。
您可以為一個BoardReader crawler找到並新增多個爬蟲空間。有關說明,請參閱在BoardReader爬蟲中查詢和新增爬蟲空間。
資料來源爬蟲外掛是Java™應用程式,可以改變爬行文件的內容或後設資料。你可以為所有非網路爬蟲型別配置一個資料來源爬蟲外掛。欲瞭解更多資訊,請參閱爬蟲外掛。