Entfernen bestimmter HTML-Tags vom Inhalt

368
Emilie

Ich arbeite zurzeit an einer Studie, die Stack-Exchange-Inhalte umfasst, und suche nach einem effizienten Weg, den Inhalt in meinen CAQDAS zu integrieren. Das CAQDAS, das ich verwende, ist DeDoose.

Mein Problem ist, dass die Unterstützung für HTML ziemlich schlecht ist. Die Formatierung wird nicht beibehalten. Es ist also ein Durcheinander. Ich habe verschiedene Optionen wie Drucken als PDF ausprobiert (aber die PDF-Unterstützung ist auch ziemlich schlecht). Ich freue mich darauf, es in Rich Text umzuwandeln.

Ich habe Tausende von Seiten zu behandeln. Ich habe eine Chrome-Erweiterung namens ReaderView ausgecheckt. Es macht einen ziemlich guten Job, entfernt aber einige Dinge, die ich brauche, wie zum Beispiel Formatierung und Benutzerinformationen. Derzeit ist die beste Option, die ich mir mit meinen Fähigkeiten vorstellen kann, das Kopieren der HTML-Seiten jeder Seite in InDesign und das Erstellen eines Skripts mit GREP, um das zu entfernen, was ich nicht brauche.

Meine Traum-App wäre ein HTML-Editor, in dem ich einfach alle HTML / CSS-Elemente deaktivieren und als RTF oder etwas in diese Richtung exportieren kann.

Kennt jemand von euch einen besseren Weg, dies zu tun?

Das sieht nach einer guten Spur aus, aber ich bin überhaupt nicht mit Python vertraut ...

0

1 Antwort auf die Frage

1
Emilie

Am Ende habe ich meine Antwort gelöst, obwohl mir diese Frage das Tumbleweed-Abzeichen brachte ... nicht sicher, ob das eine gute Sache ist!

Ich habe es geschafft, was ich wollte, indem ich die Selenium-API verwendete, verschiedene Selektoren in HTML / Text extrahierte und parst, je nachdem, was ich brauchte.