Extrahieren Sie HTML-Textdateien in eine Textdatei

527
Meds

Ich habe einen Ordner mit vielen HTML-Dateien. Ich möchte nur den im Hauptteil dieser HTML-Datei enthaltenen Text in eine TXT-Datei extrahieren. Wie kann ich das tun?

0

1 Antwort auf die Frage

1
rbialon

Sie können jede Datei im Verzeichnis durchlaufen und einen Befehlszeilen-Browser wie lynx oder w3m verwenden, um den HTML- Code in Klartext zu rendern und in einer Textdatei zu speichern.

Lynx-Beispiel:

lynx -dump in.html > out.txt 

w3m Beispiel:

w3m -dump in.html > out.txt