Ich habe Heritrix Web Crawler installiert und ausgeführt. Es speichert Daten in .arc.gz-Dateien

1608
Alex

Wenn Sie Heritrix Web Crawler verwendet haben, würde ich mich sehr über Ihre Hilfe freuen.

3 Fragen:

  1. Eine Bogendatei enthält wahrscheinlich Quellcodes von VIELEN Seiten. Wie finde ich heraus, welche ist welche?
  2. Wie interpretiere ich die .arc.gz-Dateien? Ich habe sie in VIM geöffnet und erkannte, dass es HTML-Code + Junk gab (was ich mit Python SGMLParser nicht einmal wegen des Junk analysieren kann).
  3. Ist es empfehlenswert zu komprimieren? (.gz)

Grundsätzlich habe ich keine Ahnung, was .ARC-Dateien sind und was ich damit machen kann. Ich bin es gewohnt, URLLIB2 zu verwenden, um HTML manuell herunterzuladen und zu analysieren.

0

1 Antwort auf die Frage

3
Andrew Johnson

Hier ist ein Link zum Download von ArcReader und eine Erklärung: http://crawler.archive.org/articles/developer_manual/arcs.html .

Ich googelte für das Lesen von Arc-Dateien und dies war der erste Link.

Zuerst müssen Sie die Dateien entpacken (sie sind gzippt, daher die Erweiterung .gz.). Dann können Sie die ARC-Datei lesen.