Sie können den WARC mit dem Webarchive Player durchsuchen und die gewünschten Dateien in Ihrem Browser speichern. Alternativ können Sie den WARC auf webrecorder.io hochladen und dort suchen / herunterladen.
Extrahieren von Dateien aus einem Webarchiv (.warc)
11073
wxs
Ich habe eine Reihe von Websites, die ich archiviere, um viele der verknüpften Dateien dort zu speichern, insbesondere eine Reihe von PDF-Dateien.
Ich habe kein Problem mit dem Heritrix-Crawler zum Sammeln der Websites. Ich habe jedoch keine gute Lösung gefunden, um die Dateien aus diesen .warc
Dateien zu extrahieren .
Hat jemand Erfahrung damit oder hat einen bevorzugten Weg, um diese einzelnen Dateien herauszuholen?
3 Antworten auf die Frage
4
Dragan Espenschied
1
Ivan Begtin
Ich schlage vor, warctools zu probieren: https://github.com/internetarchive/warctools Es ist die Python- Bibliothek, die sehr einfach zu bedienen ist.
0
Martin Parkin
Ich habe zuvor 7-Zip verwendet, um einzelne Dateien oder ganze Archive aus Dateien im Web Archive-Format zu extrahieren.
Es ist auf ihrer Website hier verfügbar .
Interessant. Ich bin auf einem Linux-Rechner, also habe ich den Build ** p7zip ** verwendet. Es scheint das `` .warc`` nicht als irgendeine Art von Archiv zu erkennen, das es dekomprimieren kann (`` p7zip -d web-archive.warc``). Sie konnten mit 7-Zip jedoch einzelne Dateien herausziehen?
wxs vor 11 Jahren
0
@walker war ich in der Tat. Obwohl das Archiv nicht erkannt wurde, wurde es mit 7-Zip geöffnet, und der Inhalt wurde angezeigt und war extrahierbar.
Martin Parkin vor 11 Jahren
0
Hm. Ich bin auf einen Windows-Rechner geraten und verwende 7-Zip 9.20. Ich habe drei verschiedene `` .warc``-Dateien, aber keine sind vom Programm extrahierbar. Nicht sicher, was das Problem ist.
wxs vor 11 Jahren
0
Verwandte Probleme
-
3
Was bedeutet abgeleitete Arbeit im Zusammenhang mit Websites?
-
8
Ressourcen zum Erstellen von Computern
-
21
Komprimieren mit RAR vs ZIP
-
2
LogMeIn.com und Eingriffe auf bestimmte Websites
-
4
Wie kann ich gesendete Formulardaten im Internet Explorer erfassen / erfassen?
-
19
Wie kann ich eine komplette Website herunterladen?
-
2
Assistent für komprimierte Ordner - andere Archivformate
-
10
Wie füge ich eine ZIP-Datei zusammen, die in mehreren Teilen per E-Mail verschickt wurde?
-
6
Welche Erweiterungen sollten bei der Registrierung einer Domain vermieden werden?
-
3
Kostenlose oder unbegrenzte Lizenzalternativen zur Monoslideshow Flash-Diashow?