Eine Lösung ist das Speichern in einem Git-Repository.
Da Git eine inhaltsbasierte Adressierung verwendet, beanspruchen unveränderte Dateien nur einen geringfügigen zusätzlichen Speicherplatz im Repository. Revisionen benötigen auch wenig Platz, weil sie Unterschiede speichern. Anfangs werden die Blobs einzeln komprimiert gespeichert, aber Git fasst Dateien regelmäßig zu Paketen zusammen, die effektiver komprimiert werden. Sie können diese Funktionalität auch manuell mit aufrufen git gc
.
Die Website-Daten können auf einfache Weise abgerufen werden wget --mirror
. Sehen Sie sich alternativ an, ob die Blog-Site eine XML-API bereitstellt (die durch das Vermeiden der Archivierung von Boilerplate-HTML platzsparender wäre). Sie möchten die Seiten in den aktuellen Arbeitsbaum laden.
Nachdem der Download abgeschlossen ist, fügen Sie alles hinzu und übergeben Sie es dem git-Repository. Daher ist jedes Commit eine Momentaufnahme.