Eine Website spider / crawlen und jede URL und jeden Seitentitel in einer CSV-Datei abrufen

1384
Tyler Clendenin

Ich ziehe von einer alten ASP-Einkaufswagen-Website zu einer Drupal / Ubercart-Website. Ein Teil dieses Schrittes ist es, sicherzustellen, dass alte Links zu den neuen weiterleiten. Dazu brauche ich nur eine Möglichkeit, eine Liste aller Links von der alten Site zu erhalten.

Vorzugsweise hätten die Ergebnisse den Seitentitel, und im Idealfall könnte ich es irgendwie ermöglichen, andere Daten von der Seite zurückzugeben (z. B. einen CSS-Selektor).

Ich würde es vorziehen, wenn es in OS X wäre, aber ich kann auch Windows-Apps verwenden.

Ich habe Integrity ausprobiert, aber seine Ausgabe ist fast unmöglich zu entziffern, und es scheint nicht gut zu funktionieren.

1
R kann damit umgehen. Ich bin mir jedoch nicht sicher, wie ich das für eine ganze Website machen soll. Hier ein Beispiel für das Parsen einer Seite: http://stackoverflow.com/questions/3746256/extract-links-from-webpage-using-r Brandon Bertelsen vor 11 Jahren 0

1 Antwort auf die Frage

0
RedGrittyBrick

If you don't mind writing Perl scripts ...

This module implements a configurable web traversal engine, for a robot or other web agent. Given an initial web page (URL), the Robot will get the contents of that page, and extract all links on the page, adding them to a list of URLs to visit.

Ich bin mit Perl schrecklich, und ich kann nicht herausfinden, wie man ein Modul aus CPAN = p installiert Tyler Clendenin vor 11 Jahren 0