維護您的網站涉及擁有專門的備份策略。雖然備份是必不可少的,但它們並不是保護站點的唯一方法。備份的自然延伸是對網站進行歸檔——儘管它們是互補的過程。
有幾種靈活的方法可以歸檔網站。好訊息是它們都易於使用且易於訪問。您只需為您的需要和要求選擇正確的解決方案。
在這篇文章中,我們將看看如何歸檔網站。我們還將探索您會遇到的不同歸檔型別,彙總一些最突出的站點歸檔工具,並討論一些有關歸檔站點的技巧。
網站歸檔簡介
歸檔網站意味著保留內容、資料和媒體以供將來參考。使用諸如Wayback Machine之類的專用服務(儘管我們稍後會介紹其他解決方案),您可以檢視網站的舊版本。
閃電博網站在2016年的樣子
在技術層面上,爬蟲會拍攝網站的快照,該網站構成了檔案本身。如果您願意,您可以使用簡單的日曆訪問它並以時間線格式檢視每個迭代。
閃電博網站的Wayback Machine日曆存檔
至於為什麼會有Wayback Machine這樣的解決方案,我們得追溯到2000年代初。網際網路泡沫幾乎破滅了;許多企業正在倒閉。一些受歡迎的網站被關閉或放棄,留下的記憶很少。
與網際網路出現之前的其他媒體格式(例如音樂和電視)非常相似,這些網站具有歷史和懷舊價值。拯救它們意味著讓未來的網際網路使用者一瞥我們與早期技術的差距。
在網際網路檔案館推出Wayback機器來幫助維護網站。如果網站已在那裡存檔,您可以看到該網站多年來的發展情況。
歸檔網站需要許多爬蟲,包括可能需要數年才能完成的巨大的個人爬蟲。執行爬行“探險”和儲存結果快照所需的咕嚕聲是巨大的。
例如,Wayback Machine的第一臺100TB伺服器於2004年投入使用。到2020年底,Wayback Machine已儲存超過70PB的資料。這超過70,000TB。
然而,並不是每個人都對Internet Archive所做的工作感到滿意。基於網站存檔是否破壞現有版權問題,已經有多次討論和法律挑戰。
儘管如此,鑑於儲存的檔案數量的顯著增長,人們顯然希望保留網站。
為什麼要存檔網站
想要存檔網站的原因有很多,而不僅僅是出於懷舊的原因。對於現實世界的類比,請檢視GitHub。
GitHub的基礎設施很像網際網路檔案
Github儲存專案的儲存庫,以及所做的每個“提交”。將此與網際網路存檔進行比較,儲存庫代表整個存檔,而提交則是快照。
就像Git儲存庫很有價值一樣,存檔也很有價值。例如,您可以檢視網站以前的迭代(甚至是多年前的)以影響您當前的設計選擇。
此外,您可能有法律義務對您的網站進行存檔,尤其是在金融或法律行業。
最後,如果您不幸捲入了圍繞您網站的訴訟,您的檔案將成為寶貴的證據。如果您能提供清晰完整的網站檔案,您甚至可以在法院介入之前解決糾紛。
備份和歸檔的區別
在我們討論可用的不同型別的Web歸檔之前,有必要回到我們之前提到的主題。在紙面上,站點備份和網站存檔看起來很相似。然而,他們執行不同的工作,相互補充。簡而言之:
- 備份是基於資料的。他們更關心保留您網站的資料。鑑於如果您需要恢復站點,備份至關重要,因此對資料進行完整備份至關重要。
- 檔案儲存資料的上下文。如果您瀏覽您最喜歡的網站的存檔,您會注意到該功能通常是不完整的。但是,站點的設計和靜態內容通常是完整的。
值得注意的是,歸檔並不打算完全避免資料儲存工作。事實上,其中一項好處是讓使用者可以像在現場一樣瀏覽您的網站。即便如此,考慮到諸如Wayback Machine之類的網站作為虛擬“記憶通道”存在,保持視覺效果完整比保留後端功能具有更高的優先順序。
簡而言之,您需要為您的站點同時使用備份和存檔——前者作為日常保護以防最壞的情況發生,而後者作為幫助記錄站點演變的附加方式。
您將遇到的不同型別的Web歸檔
網路歸檔不僅僅是一種風格。您會遇到幾種不同的型別。以下是每個的細分:
- 客戶端:它涉及終端使用者儲存相關網站的版本。它簡單、可擴充套件,可讓您輕鬆歸檔網站。
- 伺服器端: Wayback Machine和其他方法被歸類為伺服器端歸檔。它使用爬蟲和其他技術來存檔網站,但它也需要客戶端存檔中沒有的一定程度的同意。
- 基於事務:雖然這仍然基於伺服器端歸檔,但它更復雜,需要站點所有者的明確同意。本質上,它歸檔了終端使用者和伺服器之間的站點事務。
對於具有靜態資料的簡單網站,再加上有組織的歸檔策略,客戶端歸檔應該符合要求。然而,大多數其他站點更喜歡伺服器端歸檔——大多數網站不需要基於事務的歸檔。
最後——我們將在整篇文章中更詳細地討論這一點——您還需要考慮存檔的儲存位置和方式。例如,本地存檔並不是一個糟糕的選擇,但如果您的計算機出現故障,您可能會看到它消失了。另一方面,如果您選擇第三方解決方案,您對存檔內容的控制就會減少。
正如您所期望的,這裡的答案是使用多方面的方法來存檔網站。我們建議將存檔視為備份:將三個不同的副本儲存在不同的位置並以某種方式同步。
您可能還希望使其中一個存檔生效,以便您可以利用站點上的任何伺服器端功能。結果是一個具有強大備份和存檔策略的網站,對其他人仍然有用。
Internet存檔工具和站點的初學者指南
有很多解決方案可用於歸檔網站。我們將介紹一些較受歡迎的,以及我們對它如何適合您的看法。
1. Wayback Machine
Wayback Machine
首先,讓我們討論Wayback Machine。它是同類產品中的第一個,因此為其他歸檔工具設定了基準。
因此,在尋找存檔網站時,它可能會成為第一個負責人。它有很多方法來建立和上傳檔案,甚至還有一個專門的API來連線到它的功能。值得注意的是,它也是一個伺服器端歸檔解決方案。
也就是說,由於它抓取和歸檔網站的方式,Wayback Machine可能無法保留您網站的所有功能。儘管如此,它被認為是網路檔案管理員的行業標準,並且完全可以免費啟動。在本文後面,我們將向您展示如何使用Wayback Machine更詳細地存檔網站。
2. Archive.today
Archive.today網站
接下來是Archive.today。它在很多方面都與Wayback Machine相似——甚至是網站幾乎“復古”的設計。它的資料伺服器位於歐洲,但它的歸檔方式與Wayback Machine不同。
首先,Archive.today不是基於在網路上執行的爬蟲。相反,您提交您的URL並同意將其包含在存檔中。此外,它的功能列表比其他解決方案更簡單。例如,沒有強大的刪除策略,並且存檔過程排除了某些媒體和檔案型別。
儘管如此,如果您想要一個免費的地方來儲存檔案,它仍然是免費且合適的。該站點甚至具有查詢以前存檔站點的搜尋功能。
3. Heritrix
Heritrix網站
到目前為止,我們在這篇文章中幾乎可以互換地提到Internet Archive和Wayback Machine。不過,Wayback Machine只是一項服務,除此之外,Internet Archive還提供其他一些存檔產品。Heritrix是一個免費的開源工具,誕生於Internet Archive和北歐圖書館之間的合作。
它本質上是一個網路爬蟲,而不是一個功能齊全的歸檔工具。但是,您可以將所有爬取的結果打包在一起。雖然過去並非如此,但Wayback Machine現在使用Heritrix來抓取站點以包含在其自己的站點中。更重要的是,大量圖書館和機構使用Heritrix來建立檔案。
儘管具有令人印象深刻的功能,但安裝Heritrix需要一些技術知識。沒有使用者友好的介面來為您安裝它,因此您需要了解Git、GitHub和命令列。
與其他類似解決方案一樣,Heritrix完全免費使用,因此適合作為經濟高效的自存檔解決方案。
4. Web歸檔整合層 (WAIL)
Web歸檔整合層 (WAIL) 網站
如果您正在考慮使用Heritrix對網站進行存檔,但對簡單安裝軟體所需的技術知識感到厭煩,那麼這裡有一個潛在的解決方案適合您。網頁存檔整合層(WAIL)是一個免費和開源的跨平臺的桌面應用程式,讓你一個功能的圖形使用者介面(GUI)來使用,使用安裝程式一起。
好訊息是Heritrix是WAIL的爬行引擎。這意味著您可以利用Heritrix的強大功能,而不必遍歷GitHub和命令列。此外,WAIL使用OpenWayback引擎來“重放”網路檔案。
因此,您已準備好在您的機器上使用功能齊全的Web歸檔工具。我們還將在本文後面準確地向您展示WAIL的工作原理。
5. Stillio
Stillio網站
我們的倒數第二個歸檔工具被稱為自動解決方案,可以按設定的時間間隔拍攝快照。Stillio是一項高階服務,在外觀和感覺上都與其他歸檔解決方案不同。
該網站看起來很漂亮,併為您提供了無數選項來建立滿足您確切要求的檔案。例如,您可以向URL新增標籤和自定義標題。
此外,您可以選擇將檔案儲存到Dropbox、Google Drive和其他第三方服務。
然而, Stillio有一個巨大的缺點:它不支援後端歸檔。您只能使用網站的螢幕截圖,而不是完整的資料存檔。對於許多應用程式,這還不夠。
但是, Stillio在某些情況下可能很有用,例如用作品牌管理和跟蹤工具。例如,您可以擷取競爭對手網站或搜尋引擎結果的螢幕截圖。它也非常適合內容驗證。
Stillio的起價為每月29美元,並通過四個等級上升至每月299美元。這是一個很大的問題,尤其是當有具有更強大功能的免費替代品時。但如果它完全適合您的用例,那麼值得一看!
6. Pagefreezer
Pagefreezer網站
我們的最終解決方案是另一個自動化工具。Pagefreezer提供許多與Stillio相同的好處,但它還可以存檔社交媒體內容、文字訊息、完整站點和企業級協作平臺。
從表面上看,Pagefreezer似乎是比Stillio更強大的解決方案,並且在各種用例中具有更大的價值。
例如,如果法律要求您完全歸檔站點,Pagefreezer就可以滿足要求。它允許您自動化快照數量並使用站點存檔瀏覽器和比較工具檢視它們。
總體而言,Pagefreezer是一款出色的企業級工作場所歸檔解決方案。使用Yammer或Salesforce的Chatter的公司會被這種型別的解決方案所吸引,Workplace使用者也會如此。
什麼是Web存檔 (WARC) 檔案格式?
如果您正在研究如何歸檔網站,您會遇到Web歸檔 (WARC)格式。它是您站點存檔的各種檔案的打包組合,因此具有便攜性和自包含性。
網際網路檔案館建立了WARC來長期儲存網路資料。國際網際網路保護聯盟 (IIPC) 已釋出檔案格式的完整規範。它將儲存影象、後設資料以及您的站點獨立執行所需的幾乎所有內容。
雖然它最初只是一種方便的檔案格式,但WARC現在是數字檔案的國際ISO標準。因此,它已被政府和其他官方機構採用。事實上,有幾個用例WARC檔案至關重要:
- E-discovery:這是訴訟期間的過程,在該過程中,數字記錄被研究並呈現以納入審判。對於社交媒體記錄,WARC檔案符合E-discovery法律標準。
- 資訊自由(FOI): 有許多國家的政府和使用該FOI官方機構和開啟記錄的作用是提供一個“知情權”(RTK)服務狀態成分。WARC格式在涉及數字記錄的情況下是理想的。
許多不同的歸檔解決方案和爬蟲都使用WARC,例如StormCrawler和Apache Nutch。您還可以調整命令列工具(例如Wget)的設定,以將請求提取並打包為WARC檔案。我們很快就會更詳細地討論這個問題。
還有很多其他工具也可以輸出到WARC檔案。比如開源網頁儲存工具wallabag就可以做到這一點。
作為替代方案,grab-site是一個基於Web的應用程式,可幫助將檔案抓取為WARC檔案。
開啟WARC檔案取決於您使用的工具。無論您喜歡哪種解決方案,請記住,其中一些工具已經有一段時間沒有更新了。
因此,您需要確保您選擇的解決方案適用於您當前的系統,並且將來可以使用。如果您在歸檔專案的過程中避免使用可能會終止或放棄的工具,您將省去很多麻煩。
管理離線檔案的技巧
在我們討論如何歸檔網站之前,讓我們花幾分鐘時間來幫助您整理現有的檔案。我們已經談到了這個主題,但採用可靠的方法將使您的檔案更易於管理。您網站的使用者也將從組織良好的檔案中得到更多的利用。
您必須牢記三個關鍵要素:
- 頻率: 決定您想要多久歸檔一個站點。幾乎每天都在變化的龐大、動態、複雜的站點將需要比靜態站點更頻繁的快照。
- 位置:就像備份一樣,您應該將檔案儲存在多個不同的位置,包括雲。遵循3-2-1 規則以獲得額外保證。如果您想捕捉網站的全部深度,我們還建議您提供更多資訊。
- 結構:就像您的計算機目錄一樣,您應該使用明確的資料夾,細分為站點存檔的名稱和特定站點的存檔日期。
雖然您可以進一步擴充套件您的歸檔管理,但這三個技巧將開始您的歸檔工作。
歸檔網站的4種方法
下面,我們將建議五種不同的網站存檔方式。我們已經根據它們的相對難度對解決方案進行了排序。但是,如果您發現一個您認為可以滿足您當前需求的解決方案,請隨時深入瞭解並找到更多。
1. 將單個頁面儲存到本地計算機
讓我們討論最直接的解決方案。如果您需要存檔單個頁面,那就太好了,甚至更好的是,幾乎每個瀏覽器都已經具備該功能。
首先,開啟您最喜歡的瀏覽器並前往您要存檔的網站。頁面載入後,導航到瀏覽器的檔案選單並找到頁面另存為選項:
Firefox的檔案選單包含儲存單個網頁所需的功能。
接下來,單擊儲存頁面的選項,此時瀏覽器將顯示一個對話方塊。
在這裡,為您的頁面選擇一個名稱(儘管預設值很好)。此外,請確保您儲存的是整個頁面,而不僅僅是HTML。它將以儘可能多的功能保留站點。
2. 使用線上存檔(例如Wayback Machine)
如果不向您展示Wayback Machine的工作原理,任何教學都是不完整的。幸運的是,這個過程很簡單。也就是說,請注意,此方法僅允許您存檔單個頁面(儘管訂閱Archive-It服務確實允許您存檔完整站點)。
對於這種方法,請前往Wayback Machine主頁並檢視“Save Page Now”表單:
Wayback Machine網站上的“Save Page Now”表單
要存檔頁面,只需將您希望儲存的URL新增到此表單,然後點選Save Page。根據頁面的大小或複雜程度,您可能需要等待幾分鐘,讓爬蟲和引擎完成它們的工作。可能是頁面看起來好像崩潰了。我們在測試中遇到了一段時間的死亡白屏 (WSoD)。
但是,一旦頁面被歸檔,Wayback Machine會將您重定向到新的專用頁面。
存檔在Wayback Machine上的頁面
請注意,您也可以使用書籤和瀏覽器擴充套件程式來存檔網站。事實上,當前的大多數瀏覽器都具有這些開箱即用的選項,包括Google Chrome、Firefox和Safari。
4. 安裝Web歸檔整合層 (WAIL)
使用這種方法的第一步是下載WAIL本身並安裝它。幸運的是,該工具有一個專用的安裝程式(儘管因為該程式是用Python編寫的,所以它使用了PyInstaller模組)。
安裝過程輕而易舉。無論您使用何種作業系統 (OS),您都可以執行以下操作:
- 導航到WAIL網站並下載適合您作業系統的安裝程式。
- 對於Windows版本解壓縮檔案,或者為macOS安裝DMG映像。
- 在macOS的結果對話方塊螢幕上,將應用程式圖示拖到您的應用程式資料夾中。對於Windows使用者,只需將解壓縮的資料夾拖到根C:\驅動器即可。
- 啟動WAIL.app或WAIL.exe(取決於您的作業系統)。
WAIL開啟後,您將看到它的最小介面:
WAIL介面為您提供了三個選項
您現在可以選擇三個選項:檢視存檔、檢查其狀態或存檔網站。按鈕有點令人困惑,因為您的自然傾向可能是從左到右閱讀。但是,在首次釋出時,您的檔案中將一無所有。
相反,輸入要存檔的站點的URL,然後單擊Archive Now!您會看到WAIL開始抓取網站。您可以在Advanced > Heritrix選項卡上檢查您的抓取狀態:
WAIL顯示抓取作業的當前狀態
完成後,它會向您顯示“成功”訊息。此時,您可以單擊“Basic”選項卡上的“View Archive”按鈕。這將在瀏覽器中開啟您的存檔站點,供您檢視。
5. 如果您習慣使用命令列,請使用Wget
對於我們歸檔網站的最終方法,在開始之前您需要做一些事情:
- 命令列訪問您的計算機
- 合適的命令列工具,例如Windows命令提示符或macOS和Linux上的終端
- Wget安裝在您的計算機上
您可能已經擁有前兩個。
在macOS上,您可以使用命令brew install wget
通過Homebrew安裝Wget。請注意,您還需要安裝Homebrew,但只需幾秒鐘。在Linux上,大多數主要發行版都預裝了Wget。
如果您是Windows使用者,則在您的計算機上安裝Wget可能會更加困難。雖然網路上有可用的教學,但它們的指導在機器之間似乎不一致。相反,我們建議您前往官方Wget網站並檢視一些可用的Windows二進位制檔案,因為它們更有可能適合您。
不管怎樣,一旦你安裝了Wget,使用它就很簡單了。首先,導航到新終端視窗中的目錄。在這裡,我們也在建立目錄,但此步驟是可選的:
cd documents && mkdir archive && cd archive
請注意,Wget會將所有下載內容拉入任何工作目錄中。在這種情況下,我們為我們的檔案指定了一個資料夾。
接下來,您需要抓取站點並提取檔案。使用wget
命令呼叫每個操作,您需要使用以下格式:
wget "https://www.wbolt.com/tw/" --warc-file="kins"
按Enter鍵將開始將www.wbolt.com下載到index.html檔案並建立一個名為kins-00000.warc.gz的WARC檔案。
存檔為WARC檔案的站點
Wget功能強大,您可以使用許多命令和選項。例如,您可以使用該--mirror
命令建立一個包含站點完整映象的WARC 檔案。您也可以使用該--no-warc-compression
命令來寫入未壓縮的檔案,儘管這顯然會在每次下載時佔用更多空間。使用內建壓縮機是最佳方法。
小結
Web歸檔源於對快速變化的網際網路形態進行記錄的需求。它現在有多個有效的應用程式——例如,在法律檔案和要求的情況下。無論您需要什麼,擁有結構良好且組織良好的存檔都可以補充您的整體備份策略。
幸運的是,有很多解決方案可以提供幫助。大多數瀏覽器都提供在您的計算機上儲存網頁的功能。然而,諸如Wayback Machine、Heritrix、WAIL和Wget等專用歸檔工具都是特別強大的解決方案,並提供標準化的檔案格式。
評論留言