Speichern Sie Teile einer Website als reinen Text

1177
Martin

Ich hoffe ich kann das hier fragen.

Ich muss den Inhalt einer vorhandenen Website (verantwortlich für den Website-Inhaber) in Word- (oder Text-) Dokumente extrahieren. Dafür benötige ich nur den Inhalt eines DIV mit einer gegebenen ID.

Gibt es ein Tool für Windows, das dies für mich tun kann (idealerweise rekursiv)? Ich kenne wget und den Website-Downloader, aber beide können den gesamten HTML-Code "nur" speichern.

1

3 Antworten auf die Frage

1
eleven81

Am besten bauen Sie dafür Ihre eigene Toolchain:

  1. Verwenden Sie ein Tool wget, um die HTML-Dateien, von denen Inhalte benötigt werden, rekursiv herunterzuladen. Achten Sie besonders auf die Optionen -rzum Angeben des rekursiven Herunterladens und -lzum Festlegen der Tiefe der Rekursion. wgetgibt Klartext aus.
  2. Verwenden Sie ein Werkzeug grep, um alles herauszufiltern, außer den Zeilen, die die <DIV>benötigten Zeilen enthalten . Achten Sie besonders auf die Optionen -rzum Angeben der rekursiven Suche und -ezum Angeben eines regulären Ausdrucks. Pipe grep-Ausgabe in eine Datei Ihrer Wahl. grepgibt Klartext aus, wenn es Klartext ist.

Hinweis: Es kann einfacher sein, grepmehrere Male zu verwenden, um Dinge in kleineren Abschnitten herauszufiltern. Dies hängt völlig davon ab, wie ähnlich die verschiedenen Seiten sind und wie sauber der Code ist.


Bearbeiten: Andererseits ist die Verwendung von Regex möglicherweise keine gute Möglichkeit, HTML zu analysieren .

** Noch ein Hinweis: ** Möglicherweise möchten Sie ** sed ** in Betracht ziehen, wenn ** grep ** nicht alles tut, was Sie brauchen. Nicht alle Websites legen bequem Wagenrückläufe an, um jeden DIV in einer eigenen Zeile zu platzieren. Chris Nava vor 14 Jahren 1
Genau das wollte ich vermeiden. Martin vor 14 Jahren 0
0
Josh Hunt

Ich glaube nicht, dass so etwas schon existiert. Ich denke, Ihre beste Option wäre, sich selbst etwas zu kodieren.

BeautifulSoup ist eine schöne Python-Bibliothek, mit der Sie dies in sehr minimalem Code tun können. Für weitere Hilfe schlage ich vor, dass Sie zu Stack Overflow wechseln

Nun, wenn ich es selbst programmiere, würde ich sicher dort suchen. Danke trotzdem. Martin vor 14 Jahren 0
0
CarlF

Ich bin faul. In der Zeit, die Sie benötigen, um ein spezielles Werkzeug zu recherchieren und einzurichten, können Sie den erforderlichen Text einfach mit der Maus markieren, kopieren und in einen Texteditor einfügen.

Das mache ich schon. Aber es ist langweilig und fehleranfällig. Deshalb suche ich nach einem Werkzeug, das mir helfen kann. Martin vor 14 Jahren 0