BoardReader crawler

BoardReader crawler蜘蛛/爬蟲屬於工具型別,由Effyis, Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解BoardReader crawler基本資訊,使用者代理和訪問控制等。

基本資訊

BoardReader crawler的基本資訊如下表。但部分不是很規範的蜘蛛和爬蟲,可能存在資訊不明的情況。
蜘蛛/爬蟲名稱
BoardReader crawler
型別
工具
開發商
Effyis, Inc.
當前狀態
活動

使用者代理

關於BoardReader crawler蜘蛛或者爬蟲的使用者代理字串,IP地址和伺服器,所在地等資訊如下表格所示:
BoardReader Favicon Fetcher /1.0
使用者代理字串
BoardReader Favicon Fetcher /1.0 info@boardreader.com
首次出現
2016-01-20 10:25:00
最後出現
2021-05-02 09:47:48
遵循robots.txt
未知
來源
IP地址(16) 伺服器名稱 所屬國家
199.16.185.50 spider17.boardreader.com US
208.64.38.178 208.64.38.178 US
204.11.34.42 spider12.boardreader.com US
199.16.186.106 spider20.boardreader.com US
208.92.221.106 spider16.boardreader.com US
199.16.185.58 spider18.boardreader.com US
208.64.39.178 spider7.boardreader.com US
199.16.189.154 spider36.boardreader.com US
208.92.218.134 spider39.boardreader.com US
208.92.221.98 spider15.boardreader.com US
使用者代理字串
BoardReader Blog Indexer(http://boardreader.com)
首次出現
2017-11-25 14:52:13
最後出現
2017-11-25 14:52:13
遵循robots.txt
未知
來源
IP地址(1) 伺服器名稱 所屬國家
208.64.38.178 208.64.38.178 US

訪問控制

瞭解如何控制BoardReader crawler訪問許可權,避免BoardReader crawler抓取行為不當。

是否攔截BoardReader crawler?

可能不需要。工具型別爬蟲通常為網站所有者使用此類工具對網站進行相關服務請求才會出現。當然,實際情況需站長判斷後再作決定。

通過Robots.txt攔截

您可以通過在網站的 robots.txt 中設定使用者代理訪問規則來遮蔽 BoardReader crawler 或限制其訪問許可權。我們建議安裝 Spider Analyser 外掛,以檢查它是否真正遵循這些規則。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: BoardReader crawler
Disallow: /
# robots.txt # 下列程式碼一般情況可以攔截該代理 User-agent: BoardReader crawler Disallow: /
# robots.txt
# 下列程式碼一般情況可以攔截該代理
User-agent: BoardReader crawler
Disallow: /

您無需手動執行此操作,可通過我們的 Wordpress 外掛 Spider Analyser 來攔截不必要的蜘蛛或者爬蟲。

更多資訊

BoardReader crawler抓取BoardReader網路服務所收集的社交媒體資料。BoardReader是一個應用程式,它從網際網路上的多個社交媒體來源聚集資料。

為了執行BoardReader crawler,你需要一個BoardReader API金鑰。聯絡BoardReader以獲得該金鑰。

建立爬蟲:BoardReader screen是你輸入該爬蟲配置引數的地方。

爬蟲屬性

Crawler name:爬蟲的名稱。允許使用字母數字字元、連字元、下劃線和空格。

Crawler description:對爬蟲的描述。

Advanced options:

  • 檢索請求之間的等待時間:該時間以毫秒錶示。
  • 活動爬蟲執行緒的最大數量
  • 最大的文件大小:以千位元組表示的最大尺寸。最大值為131,071千位元組。
  • 爬蟲會話開始時:指定要抓取哪些內容。

資料來源屬性

BoardReader許可證金鑰:BoardReader許可證金鑰,用於呼叫BoardReader API。

抓取持續時間:選擇抓取持續時間。

開始日期:抓取的持續時間開始日期。

結束日期:要抓取的持續時間結束日期。

持續時間型別:選擇抓取的持續時間型別。該選項僅在指定期限的當前時間被選為抓取期限時顯示。

持續時間段:抓取持續時間段的數量。該選項僅在指定期限的當前時間被選為 “抓取期限 “時顯示。

域條件:要抓取的社會媒體的域列表。

查詢條件:BoardReader用來限制抓取內容的數量的查詢。爬蟲應用布林OR邏輯來組合多個查詢。

BoardReader API引數:BoardReader的API引數。例如,filter_language=ja&filter_country=jp將抓取的內容限制在源自日本的日語文件。

預設時區:預設時區,用於將日期字串值解析為紀元時間。

時區列表:指定的時區,用於解析從相應域名抓取的日期字串值。例如,*fr.yahoo.com=WET。

代理伺服器主機名稱:代理伺服器的主機名。

代理伺服器埠:代理伺服器的埠。

代理伺服器的使用者ID:訪問代理伺服器的使用者名稱。

代理伺服器的密碼:訪問代理伺服器的使用者的密碼。

爬蟲空間屬性

您可以為一個BoardReader crawler找到並新增多個爬蟲空間。有關說明,請參閱在BoardReader爬蟲中查詢和新增爬蟲空間

爬蟲外掛

資料來源爬蟲外掛是Java™應用程式,可以改變爬行文件的內容或後設資料。你可以為所有非網路爬蟲型別配置一個資料來源爬蟲外掛。欲瞭解更多資訊,請參閱爬蟲外掛

  • 啟用爬蟲外掛:當您使用爬蟲外掛時,請啟用此選項。
  • 外掛類別名稱:爬蟲外掛的類名。
  • 外掛類的路徑:爬蟲外掛的JAR檔案位置。包含JAR檔案的資料夾必須被掛載,以便它可以使用。欲瞭解更多資訊,請參閱從Watson Explorer oneWEX提供對本地檔案系統的訪問

常見蜘蛛/爬蟲

Common Spiders
Google-NotebookLM
Google-NotebookLM蜘蛛/爬蟲屬於工具型別,由Google Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Google-NotebookLM基本資訊,使用者代理和訪問控制等。
Apidog
Apidog蜘蛛/爬蟲屬於工具型別,由Apidog, Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Apidog基本資訊,使用者代理和訪問控制等。
Google Firebase
Google Firebase蜘蛛/爬蟲屬於工具型別,由Google Inc.開發執行。您可以繼續閱讀下方資訊,以深入瞭解Google Firebase基本資訊,使用者代理和訪問控制等。
magereport
magereport蜘蛛/爬蟲屬於工具型別,由Hypernode B.V.開發執行。您可以繼續閱讀下方資訊,以深入瞭解magereport基本資訊,使用者代理和訪問控制等。
7Siters
7Siters蜘蛛/爬蟲屬於工具型別,由Re-Re Web Studio開發執行。您可以繼續閱讀下方資訊,以深入瞭解7Siters基本資訊,使用者代理和訪問控制等。
GoodBarber
GoodBarber蜘蛛/爬蟲屬於工具型別,由GoodBarber SAS開發執行。您可以繼續閱讀下方資訊,以深入瞭解GoodBarber基本資訊,使用者代理和訪問控制等。
PWABuilder
PWABuilder蜘蛛/爬蟲屬於工具型別,由Microsoft Corporation.開發執行。您可以繼續閱讀下方資訊,以深入瞭解PWABuilder基本資訊,使用者代理和訪問控制等。
globalping bot
globalping bot蜘蛛/爬蟲屬於工具型別,由globalping.io開發執行。您可以繼續閱讀下方資訊,以深入瞭解globalping bot基本資訊,使用者代理和訪問控制等。

相關文章

Related Articles