如何指定抓取的請求頭資訊?

在robots.txt檔案中,可以使用Request-header指令來指定爬蟲傳送請求時的頭資訊。例如,”Request-header: X-Forwarded-For=myproxy”將告訴爬蟲新增X-Forwarded-For頭資訊,值為myproxy。

大多數搜尋引擎蜘蛛支援常見的Request-header指令,例如:

  1. User-Agent:用於識別瀏覽器或爬蟲的標識。
  2. Accept:用於指定瀏覽器或爬蟲能夠接受的媒體型別。
  3. Accept-Encoding:用於指定瀏覽器或爬蟲能夠接受的內容壓縮編碼。
  4. Accept-Language:用於指定瀏覽器或爬蟲能夠接受的語言。
  5. Referer:用於指定請求的來源頁面的URL。
  6. If-Modified-Since:用於指定上次請求的響應的修改時間,以便進行條件性GET請求。

這些是常見的HTTP請求頭,大多數搜尋引擎蜘蛛都支援它們。然而,具體的支援與實現可能因搜尋引擎和其爬蟲的版本而異,可能還有其他自定義的請求頭指令。不同的搜尋引擎可能會有不同的文件和規範,可以查閱特定搜尋引擎的文件以獲取更詳細的資訊。

未能解決您的問題?

請提交 聯絡工單