Wie kann ich Text von einer Site kratzen?

412
Matt

Schemer wird geschlossen, und ich versuche, den Text zu erhalten, da es viele gute Ideen auf der Website gibt. Ich möchte den Text von jedem der Links in der Sitemap erhalten .

Gibt es eine Möglichkeit, dies zu tun? HTTrack funktioniert nicht so, wie ich es gerne hätte.

1

1 Antwort auf die Frage

0
Giancarlo Colfer

Wget ist ein klassisches Befehlszeilentool für diese Art von Aufgabe. Es wird mit den meisten Unix / Linux-Systemen geliefert und ist auch für Windows erhältlich.

Sie würden so etwas tun:

wget -r --no-parent https://www.schemer.com/sitemap?lo=1

Weitere Informationen finden Sie im Wget-Handbuch und seinen Beispielen oder werfen Sie einen Blick auf diese:

http://linuxreviews.org/quicktips/wget/

http://www.linuxjournal.com/content/downloading-entire-web-site-wget