Suchen Sie nach toten Links in einer HTML-Datei?

484
Rook

Ich habe eine HTML-Datei mit mehreren hundert Links, eine Forschungsdatenbank von meiner Art, die im Laufe der Jahre gesammelt wurde. Was wäre der einfachste Weg, um herauszufinden, welcher von ihnen noch am Leben ist?

(Importieren in Firefox steht nicht zur Verfügung)

3
Dup von http://superuser.com/questions/38428/application-to-check-broken-links Charles Stewart vor 14 Jahren 1

1 Antwort auf die Frage

4
quack quixote

Verwenden Sie Wget . Einfach, skriptfähig, Befehlszeile und auf Ihrer bevorzugten Plattform verfügbar, egal ob Unix, Win *, Cygwin usw. (siehe Wikipedia für Links zu verschiedenen Versionen). Aus der Manpage :

--spider
Wenn Wget mit dieser Option aufgerufen wird, verhält es sich wie ein Web-Spider. Das bedeutet, dass die Seiten nicht heruntergeladen werden, sondern lediglich überprüft wird, ob sie vorhanden sind. Sie können beispielsweise Wget verwenden, um Ihre Lesezeichen zu überprüfen:

wget --spider --force-html -i bookmarks.html

Diese Funktion erfordert viel mehr Arbeit für Wget, um an die Funktionalität echter Web-Spider heranzukommen.

Möglicherweise möchten Sie auch die --no-verboseund / oder --output-document=fileOptionen.

wahrscheinlich auch mit * curl * machbar. quack quixote vor 14 Jahren 0
@quack Warum ist die Antwort als CW markiert? Sathya vor 14 Jahren 0
@sathya: warum nicht? :) quack quixote vor 14 Jahren 0
Ja, das geht. Ich glaube nicht, dass dies CW sein sollte. Rook vor 14 Jahren 0
@idigas: ehrlich gesagt, es ist CW, weil ich glaube, dass diese Frage ein Duplikat ist. Ich habe es noch nicht geschafft, einen Vorgänger aufzusuchen. kein biggie; Wenn jemand ein * curl * Beispiel hinzufügen möchte, kann er dies. quack quixote vor 14 Jahren 0
@quack - interessant. Ich dachte auch, dass ich diese Frage schon einmal gesehen habe, aber seltsamerweise konnte ich sie nicht ausgraben ... Rook vor 14 Jahren 0
@quack Hmm ich verstehe. Diese Antwort erfordert jedoch einige Wiederholungsliebe :-) Sathya vor 14 Jahren 0