Durch die Suche nach einem Tool werden platzsparende Webarchive erstellt

279
H2ONaCl

Ich suche nach einem Werkzeug, um ein Blog platzsparend zu archivieren, das sich täglich oder sogar zwei- bis dreimal täglich ändert. Ich meine nicht, dass sich einzelne Blogbeiträge ändern - sowieso nicht regelmäßig - ich meine nur, dass neue Blogeinträge hinzugefügt und ältere Einträge auf der Startseite nach unten verschoben werden. Ein Problem, das ich sehe, ist, dass es ineffizient sein wird, denselben Blogeintrag mehrmals zu archivieren. Revisionen desselben Eintrags sollten idealerweise archiviert werden, das Original muss jedoch nicht sein, da die Revision wahrscheinlich auf eine Verbesserung oder Korrektur zurückzuführen ist.

Es ist ein blogspot.com-Blog mit Text und statischen Bildern. Eine Linux-Lösung ist bevorzugt.

2

1 Antwort auf die Frage

1
Mechanical snail

Eine Lösung ist das Speichern in einem Git-Repository.

Da Git eine inhaltsbasierte Adressierung verwendet, beanspruchen unveränderte Dateien nur einen geringfügigen zusätzlichen Speicherplatz im Repository. Revisionen benötigen auch wenig Platz, weil sie Unterschiede speichern. Anfangs werden die Blobs einzeln komprimiert gespeichert, aber Git fasst Dateien regelmäßig zu Paketen zusammen, die effektiver komprimiert werden. Sie können diese Funktionalität auch manuell mit aufrufen git gc.

Die Website-Daten können auf einfache Weise abgerufen werden wget --mirror. Sehen Sie sich alternativ an, ob die Blog-Site eine XML-API bereitstellt (die durch das Vermeiden der Archivierung von Boilerplate-HTML platzsparender wäre). Sie möchten die Seiten in den aktuellen Arbeitsbaum laden.

Nachdem der Download abgeschlossen ist, fügen Sie alles hinzu und übergeben Sie es dem git-Repository. Daher ist jedes Commit eine Momentaufnahme.