So extrahieren Sie Text von Websites

821
Woz

Ich suche nach einer Möglichkeit, das Extrahieren von Text von mehreren Websites in ein Word-Dokument zu automatisieren. Beim Einfügen in das Word-Dokument muss es mit "Formatierung zusammenfügen" eingefügt werden. So möchte ich, dass der extrahierte Text endet, nachdem er in das Wort doc - Example eingefügt wurde

Ich brauche den Text-Extraktor, um nur Text zu extrahieren, der vom Kapiteltitel "Buch 1, Kapitel 1 - Frühen Morgen in einer Township" bis zum Ende des Kapitels reicht, wo "Vorheriges Kapitel" steht, aber "Vorheriges Kapitel" nicht eingeschlossen ist. Ich brauche es dann, um zum nächsten Kapitel zu gelangen, bis es das Ende von Buch 21, Kapitel 44 erreicht.

Coiling Dragon: Buch 1 - Kapitel 1 bis Coiling Dragon: Buch 21 - Kapitel 44

1
Websites sind Text (Markup), so dass Sie nach einem Parser suchen. Für eine einfache HTML-Site kann ein generischer XML-Parser zum Extrahieren von Elementkörpern verwendet werden. Sie müssen jedoch Skriptcode schreiben, um die Ansammlung, das Filtern, das Kopieren und das Einfügen von Text zu behandeln. Für kompliziertere Websites, die dynamische Inhalte auf der Serverseite oder in Clientskripts generieren, ist dies möglicherweise etwas schwieriger. Viel Glück. Frank Thomas vor 8 Jahren 0
Welchen Code hast du bisher? Burgi vor 8 Jahren 0
Ich habe derzeit noch keinen Code dafür geschrieben, ehrlich gesagt bin ich mir nicht mal sicher, wie ich Code für Skripte schreiben soll. Hat jemand einen Vorschlag für einen XML-Parser? Woz vor 8 Jahren 0
@Wozzie ehrlich gesagt, Sie können dies mit VBA recht leicht innerhalb von Wörtern tun. BigElittles vor 7 Jahren 0

0 Antworten auf die Frage