Extrahieren von Dateien aus einem Webarchiv (.warc)

Question

Extrahieren von Dateien aus einem Webarchiv (.warc)

11073

wxs 2013-08-05 в 22:01

Ich habe eine Reihe von Websites, die ich archiviere, um viele der verknüpften Dateien dort zu speichern, insbesondere eine Reihe von PDF-Dateien.

Ich habe kein Problem mit dem Heritrix-Crawler zum Sammeln der Websites. Ich habe jedoch keine gute Lösung gefunden, um die Dateien aus diesen .warcDateien zu extrahieren .

Hat jemand Erfahrung damit oder hat einen bevorzugten Weg, um diese einzelnen Dateien herauszuholen?

2

3 Antworten auf die Frage

4

1

Ivan Begtin 2013-11-10 в 18:55

Ich schlage vor, warctools zu probieren: https://github.com/internetarchive/warctools Es ist die Python- Bibliothek, die sehr einfach zu bedienen ist.

0

Martin Parkin 2013-08-05 в 22:30

Ich habe zuvor 7-Zip verwendet, um einzelne Dateien oder ganze Archive aus Dateien im Web Archive-Format zu extrahieren.

Es ist auf ihrer Website hier verfügbar .

Interessant. Ich bin auf einem Linux-Rechner, also habe ich den Build ** p7zip ** verwendet. Es scheint das `` .warc`` nicht als irgendeine Art von Archiv zu erkennen, das es dekomprimieren kann (`` p7zip -d web-archive.warc``). Sie konnten mit 7-Zip jedoch einzelne Dateien herausziehen? wxs vor 11 Jahren 0

@walker war ich in der Tat. Obwohl das Archiv nicht erkannt wurde, wurde es mit 7-Zip geöffnet, und der Inhalt wurde angezeigt und war extrahierbar. Martin Parkin vor 11 Jahren 0

Hm. Ich bin auf einen Windows-Rechner geraten und verwende 7-Zip 9.20. Ich habe drei verschiedene `` .warc``-Dateien, aber keine sind vom Programm extrahierbar. Nicht sicher, was das Problem ist. wxs vor 11 Jahren 0

Accepted Answer · 2017-01-09 09:37:38

Dragan Espenschied 2017-01-09 в 09:37

Sie können den WARC mit dem Webarchive Player durchsuchen und die gewünschten Dateien in Ihrem Browser speichern. Alternativ können Sie den WARC auf webrecorder.io hochladen und dort suchen / herunterladen.

Extrahieren von Dateien aus einem Webarchiv (.warc)

3 Antworten auf die Frage

Verwandte Probleme