Zählen Sie die Anzahl der Wörter in einer PDF-Datei

84385
osgx

Wie kann ich die Anzahl der Wörter einer PDF-Datei ermitteln? Ich denke, dass die meisten PDF-Dateien, für die ich die Gesamtzahl der Wörter erhalten möchte, eine eingebettete Textebene haben, sodass ich keine OCR benötige.

Die Aufgabe wurde durch die Suche nach wissenschaftlichen Veröffentlichungen bekannter Größe, z. B. 15000 Wörtern, geschaffen. Die meisten Moders-Papiere werden im PDF-Format veröffentlicht

53

9 Antworten auf die Frage

74
icyrock.com

Schnelle Antwort:

pdftotext myfile.pdf - | wc -w 

Lange Antwort:

Unter Unix können Sie Folgendes verwenden pdftotext:

und dann das Wort zählen in der generierten Datei. Unter Unix können Sie Folgendes verwenden:

wc -w converted-pdf.txt 

um das Wort zu zählen

Siehe auch den Kommentar von frabjous - im Grunde können Sie dies in einem Schritt tun, indem Sie stdoutstattdessen in eine temporäre Datei leiten :

pdftotext myfile.pdf - | wc -w 
Es ist "pdftotext": Vergessen Sie nicht das e. Und Sie können einen einzigen Befehl verwenden: `pdftotext myfile.pdf - | wc -w`. frabjous vor 13 Jahren 10
@ frabjous Danke, die Antwort mit den Vorschlägen aktualisiert! icyrock.com vor 13 Jahren 1
Es ist erwähnenswert, dass `pdftotext` Teil von Xpdf ist, das auch für die Windows-Plattform verfügbar ist. Die Xpdf-Download-Seite befindet sich hier: http://www.foolabs.com/xpdf/download.html. 'wc' kann auch gefunden werden, aber alternativ kann man so ziemlich jedes Textverarbeitungsprogramm wie Word oder LibreOffice Writer verwenden. Sie zählen auch Wörter. (Für LibreOffice Writer gehen Sie auf Datei -> Eigenschaften -> Statistiken.) amenthes vor 7 Jahren 0
10
Adam

Ich habe gerade ein kostenloses Programm ausprobiert, Translator's Abacus . Sie können verschiedene Dateitypen (einschließlich PDF) ziehen und ablegen. Ein Browser zeigt einen druckbaren Bericht über die Wortanzahl für jedes Dokument an. Es hat gut für mich funktioniert. (Es wurde speziell für die Wortzählung erstellt und ist nur 435 KB groß, dh keine "große Anwendung"). Der Abakus des Übersetzers funktioniert nicht für PDF 1.5 oder höher.

Alternativ : Sie können mit Ctrl+ nur Aden gesamten Text in Acrobat Reader auswählen und dann in ein Programm wie Microsoft Word kopieren (einfügen, das in der Statusleiste am unteren Bildschirmrand eine Anzahl von Wörtern enthält).

In (vielen?) PDFs wählt Crl + A nur die Wörter auf der aktuellen Seite aus, nicht das gesamte Dokument. Der Abakus des Übersetzers funktioniert jedoch perfekt, großartig! Junuxx vor 11 Jahren 0
Korrektur, Abacus des Übersetzers funktioniert nicht für PDF 1.5 oder höher. Junuxx vor 11 Jahren 3
+1 Strg + A im Adobe Reader zusammen mit WinMerge funktionieren in Windows hervorragend! superjos vor 11 Jahren 0
10
math

Dies ist eine schwierige Aufgabe, die nicht leicht zu lösen ist. Wenn Sie wirklich ein genaues Ergebnis wünschen, kopieren Sie Absatz für Absatz für Ihren PDF-Viewer in eine Textdatei und überprüfen Sie diese mit dem wc -wTool. Der Grund, warum pdftotextin diesem Fall nicht verwendet werden soll, ist: mathematische Formeln können auch in die Ausgabe gelangen und als "Wörter" betrachtet werden. (Alternativ können Sie die Ausgabe bearbeiten, die Sie erhalten pdftotext). Ein weiterer Grund, warum dies fehlschlagen kann, sind die Überschriften: "4.3.2 Foo Bar" wird als drei Wörter gezählt.

Ein Weg ist nur, Wörter zu zählen, die mit einem Zeichen außerhalb von [A-Za-z] beginnen. Was ich normalerweise mache, ist ein zweistufiger Ansatz:

  1. Holen Sie sich die Liste der uniq-Wörter und prüfen Sie, ob zu viele Fehlalarme enthalten sind:

    pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words

    Ich verwende hier kein Wörterbuch, da einige Rechtschreibfehler nicht als Wörter gelten.

  2. Holen Sie sich diese Wortliste und grep sie in der Ausgabe von pdftotext:

    pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l

Ich weiß, dass dies in einem Einliner möglich ist, aber dann konnte ich das Filterergebnis vom ersten Schritt aus nicht leicht sehen. Das -Fkann Ihnen helfen, wie durch den Kommentar von moi unten angegeben (Danke).

Ich musste "grep-ff words" verwenden, da sich grep über "Unmatched [oder" [^] beschwert. Auf der Manpage: `` `-F, --fixed-strings Interpretieren Sie PATTERN als eine Liste fester Zeichenfolgen, die durch Zeilenumbrüche getrennt sind, von denen jede abgeglichen werden muss. (-F wird von POSIX angegeben.) `` ` moi vor 7 Jahren 1
2
Bruce Crawford

A straightforward way to do this if you using Acrobat Pro is to export the PDF to a Microsoft Word document and then do the word count in Word. Alternatively, you can export it to a plain text file and use a word count utility in the text editor of your choice/. I just did a word count on a pdf article using the Word method and it took all of 30 seconds to complete.

Hope this helps.

Ich habe in Text konvertiert und wc -w Dateiname.txt ausgeführt. Es funktionierte. Vielen Dank. vijayst vor 6 Jahren 0
1
user55926

Sie können OCRFeeder installieren . Wählen Sie dazu Datei-> PDF importieren-> Alle Seiten automatisch erkennen und erkennen-> Nach ODT exportieren, und das Dokument libreoffice writer ist bereit für die Wortzählung oder jede andere RTF-Funktion, die Sie verwenden möchten.

0
Christoph

Ich finde den Wortzähler in Abrakadabra-Werkzeugen praktisch. Die Installation ist allerdings etwas schräg.

0
Vladimir

De-facto-Standard, den Übersetzer seit etwa 2000 verwenden, ist das AnyCount-Tool zur Word-Zählung. Es zählt die Anzahl der Wörter in PDF und 37 anderen Formaten.

Vladimir, gibt es Referenzen Dritter (Erwähnungen in Büchern, Zeitungen, Zeitschriften, Marktüberprüfungen), dass Anycount in den Märkten für Wortzählung und Übersetzung häufig verwendet wird? Wie https://books.google.com/books?id=llKVpiO2q0EC&pg=PA19#v=onepage&q=any+count&f=false osgx vor 6 Jahren 0
0
Franck Dernoncourt

Sie können das JavaScript der Adobe Acrobat-Konsole mit dem folgenden Code verwenden, den ich aus Dave Merchants Antwort auf forums.adobe.com entnommen habe :

var cnt=0; for (var p = 0; p < this.numPages; p++) cnt += getPageNumWords(p); console.println("There are " + cnt + " words in this file."); 

Getestet mit Adobe Acrobat Pro DC 2018.011.20040 unter Windows 7 SP1 x64 Ultimate.


So aktivieren Sie die JavaScript-Konsole:

enter image description here

So starten Sie das JavaScript-Konsolenfenster:

CTRL + J

enter image description here

Zu Ihrer Information, wenn Sie die LaTeX-Quelle haben, die der PDF-Datei entspricht: Korrigieren Sie die Anzahl der Wörter eines LaTeX-Dokuments .

-3
Johnny Boy

Ctrl+ Shift+ FErweiterte Suche eingeben Geben Sie das Wort ein und es wird gezählt, wie oft es im Dokument enthalten ist. Es ist keine Raketenwissenschaft.

Ich denke, Sie haben die Frage falsch verstanden ... "Wortzahl" bezieht sich normalerweise auf die Gesamtzahl der Wörter in einem Dokument und nicht auf die Anzahl eines bestimmten Wortes ... und ich denke, es wäre besser, wenn Sie es wären Um anzugeben, über welches Programm Sie sprechen - nicht alle PDF-Reader haben die gleichen Funktionen oder verwenden dieselben Tastenkombinationen. evilsoup vor 11 Jahren 8
Sie haben vielleicht nicht auf die Antwort des OP geantwortet, aber Ihr Beitrag hat mir sicherlich geholfen. Vielen Dank. : D mahela007 vor 8 Jahren 0