Extrahieren von Dateien aus einem Webarchiv (.warc)

11041
wxs

Ich habe eine Reihe von Websites, die ich archiviere, um viele der verknüpften Dateien dort zu speichern, insbesondere eine Reihe von PDF-Dateien.

Ich habe kein Problem mit dem Heritrix-Crawler zum Sammeln der Websites. Ich habe jedoch keine gute Lösung gefunden, um die Dateien aus diesen .warcDateien zu extrahieren .

Hat jemand Erfahrung damit oder hat einen bevorzugten Weg, um diese einzelnen Dateien herauszuholen?

2

3 Antworten auf die Frage

4
Dragan Espenschied

Sie können den WARC mit dem Webarchive Player durchsuchen und die gewünschten Dateien in Ihrem Browser speichern. Alternativ können Sie den WARC auf webrecorder.io hochladen und dort suchen / herunterladen.

1
Ivan Begtin

Ich schlage vor, warctools zu probieren: https://github.com/internetarchive/warctools Es ist die Python- Bibliothek, die sehr einfach zu bedienen ist.

0
Martin Parkin

Ich habe zuvor 7-Zip verwendet, um einzelne Dateien oder ganze Archive aus Dateien im Web Archive-Format zu extrahieren.

Es ist auf ihrer Website hier verfügbar .

Interessant. Ich bin auf einem Linux-Rechner, also habe ich den Build ** p7zip ** verwendet. Es scheint das `` .warc`` nicht als irgendeine Art von Archiv zu erkennen, das es dekomprimieren kann (`` p7zip -d web-archive.warc``). Sie konnten mit 7-Zip jedoch einzelne Dateien herausziehen? wxs vor 10 Jahren 0
@walker war ich in der Tat. Obwohl das Archiv nicht erkannt wurde, wurde es mit 7-Zip geöffnet, und der Inhalt wurde angezeigt und war extrahierbar. Martin Parkin vor 10 Jahren 0
Hm. Ich bin auf einen Windows-Rechner geraten und verwende 7-Zip 9.20. Ich habe drei verschiedene `` .warc``-Dateien, aber keine sind vom Programm extrahierbar. Nicht sicher, was das Problem ist. wxs vor 10 Jahren 0