Am besten bauen Sie dafür Ihre eigene Toolchain:
- Verwenden Sie ein Tool
wget
, um die HTML-Dateien, von denen Inhalte benötigt werden, rekursiv herunterzuladen. Achten Sie besonders auf die Optionen-r
zum Angeben des rekursiven Herunterladens und-l
zum Festlegen der Tiefe der Rekursion.wget
gibt Klartext aus. - Verwenden Sie ein Werkzeug
grep
, um alles herauszufiltern, außer den Zeilen, die die<DIV>
benötigten Zeilen enthalten . Achten Sie besonders auf die Optionen-r
zum Angeben der rekursiven Suche und-e
zum Angeben eines regulären Ausdrucks. Pipegrep
-Ausgabe in eine Datei Ihrer Wahl.grep
gibt Klartext aus, wenn es Klartext ist.
Hinweis: Es kann einfacher sein, grep
mehrere Male zu verwenden, um Dinge in kleineren Abschnitten herauszufiltern. Dies hängt völlig davon ab, wie ähnlich die verschiedenen Seiten sind und wie sauber der Code ist.
Bearbeiten: Andererseits ist die Verwendung von Regex möglicherweise keine gute Möglichkeit, HTML zu analysieren .