Ich habe Heritrix Web Crawler installiert und ausgeführt. Es speichert Daten in .arc.gz-Dateien

Question

Ich habe Heritrix Web Crawler installiert und ausgeführt. Es speichert Daten in .arc.gz-Dateien

1739

Alex 2009-10-14 в 22:31

Wenn Sie Heritrix Web Crawler verwendet haben, würde ich mich sehr über Ihre Hilfe freuen.

3 Fragen:

Eine Bogendatei enthält wahrscheinlich Quellcodes von VIELEN Seiten. Wie finde ich heraus, welche ist welche?
Wie interpretiere ich die .arc.gz-Dateien? Ich habe sie in VIM geöffnet und erkannte, dass es HTML-Code + Junk gab (was ich mit Python SGMLParser nicht einmal wegen des Junk analysieren kann).
Ist es empfehlenswert zu komprimieren? (.gz)

Grundsätzlich habe ich keine Ahnung, was .ARC-Dateien sind und was ich damit machen kann. Ich bin es gewohnt, URLLIB2 zu verwenden, um HTML manuell herunterzuladen und zu analysieren.

0

1 Antwort auf die Frage

3

Accepted Answer · 2009-10-14 22:41:07

Hier ist ein Link zum Download von ArcReader und eine Erklärung: http://crawler.archive.org/articles/developer_manual/arcs.html .

Ich googelte für das Lesen von Arc-Dateien und dies war der erste Link.

Zuerst müssen Sie die Dateien entpacken (sie sind gzippt, daher die Erweiterung .gz.). Dann können Sie die ARC-Datei lesen.

Ich habe Heritrix Web Crawler installiert und ausgeführt. Es speichert Daten in .arc.gz-Dateien

1 Antwort auf die Frage

Verwandte Probleme