Den gesamten Text einer bestimmten Schriftart aus einem MS Word-Dokument extrahieren?

1405
Ted Smith

Ich habe ein PDF-Dokument in ein Word-Format konvertiert. Das PDF ist eine Ausgabe einer Zeitschrift. Ich brauche den gesamten Text, der eine bestimmte Schriftart ist, und entweder 9,5 oder 10 Punkte. Dies sind die Inhalte der Artikel, für die ich Text Mining durchführen möchte (nur Wortfrequenzen). Die Tonnen von anderen Sachen, die extrem mühsam wären, um einen anderen Weg zu entfernen.

Klicken Sie mit der rechten Maustaste auf einen Textbereich und wählen Sie "Text mit ähnlicher Formatierung auswählen" nicht aus. (Das war, was ich vorhatte). Es wird nur der aktuelle Absatz ausgewählt. Ich habe versucht, "Alle auswählen" und dann die gesamte Absatzformatierung gleich einzustellen, dies hatte jedoch keine Auswirkungen.

0

1 Antwort auf die Frage

2
Tanya

In einer Kopie Ihres Dokuments (für den Fall, dass Sie den gesamten Text beibehalten möchten), können Sie den gesamten Text löschen, der nicht der spezifischen Schriftart und -größe entspricht, indem Sie 3 Suchen und Ersetzen ausführen (die ersten beiden markieren den gewünschten Text Behalten, der dritte wird den restlichen Klartext löschen).

(Hinweis: Stellen Sie sicher, dass die Textfelder Suchen nach und Ersetzen durch leer sind und nicht aus Versehen ein Leerzeichen in Ersetzen durch enthalten.)

  1. Suchen Sie den gesamten Text der Schrift, der 9,5 Punkte beträgt, und ersetzen Sie ihn durch Hervorhebung (er behält den Text jedoch in der letzten von Ihnen verwendeten Textmarkerfarbe bei. Möglicherweise möchten Sie ein Wort am Anfang markieren, damit eine Farbe ausgewählt wird).
  2. Machen Sie dasselbe Suchen und Ersetzen, ersetzen Sie diesmal jedoch die 10-Punkt-Schriftart durch Hervorhebung.

Die obigen Schritte 1 und 2 bedeuten, dass Text, der NICHT 9,5 oder 10 Punkte in dem von Ihnen gesuchten Schriftstil enthält, nicht hervorgehoben wird.

  1. Suchen und ersetzen, wobei die Suche einfach nicht hervorgehoben wird (um die Option Nicht hervorheben als Formatierungsoption zu aktivieren, müssen Sie sie zweimal über die Schaltfläche Formatieren links unten im Screenshot auswählen).

Dadurch wird der nicht markierte Text gelöscht, und Sie erhalten nur noch den Text, den Sie behalten möchten.