Zählen Sie die Anzahl der Wörter in einer PDF-Datei

Question

Zählen Sie die Anzahl der Wörter in einer PDF-Datei

84422

osgx 2010-12-13 в 02:07

Wie kann ich die Anzahl der Wörter einer PDF-Datei ermitteln? Ich denke, dass die meisten PDF-Dateien, für die ich die Gesamtzahl der Wörter erhalten möchte, eine eingebettete Textebene haben, sodass ich keine OCR benötige.

Die Aufgabe wurde durch die Suche nach wissenschaftlichen Veröffentlichungen bekannter Größe, z. B. 15000 Wörtern, geschaffen. Die meisten Moders-Papiere werden im PDF-Format veröffentlicht

53

9 Antworten auf die Frage

74

10

Adam 2011-04-07 в 00:36

Ich habe gerade ein kostenloses Programm ausprobiert, Translator's Abacus . Sie können verschiedene Dateitypen (einschließlich PDF) ziehen und ablegen. Ein Browser zeigt einen druckbaren Bericht über die Wortanzahl für jedes Dokument an. Es hat gut für mich funktioniert. (Es wurde speziell für die Wortzählung erstellt und ist nur 435 KB groß, dh keine "große Anwendung"). Der Abakus des Übersetzers funktioniert nicht für PDF 1.5 oder höher.

Alternativ : Sie können mit Ctrl+ nur Aden gesamten Text in Acrobat Reader auswählen und dann in ein Programm wie Microsoft Word kopieren (einfügen, das in der Statusleiste am unteren Bildschirmrand eine Anzahl von Wörtern enthält).

In (vielen?) PDFs wählt Crl + A nur die Wörter auf der aktuellen Seite aus, nicht das gesamte Dokument. Der Abakus des Übersetzers funktioniert jedoch perfekt, großartig! Junuxx vor 12 Jahren 0

Korrektur, Abacus des Übersetzers funktioniert nicht für PDF 1.5 oder höher. Junuxx vor 12 Jahren 3

+1 Strg + A im Adobe Reader zusammen mit WinMerge funktionieren in Windows hervorragend! superjos vor 11 Jahren 0

10

math 2013-01-10 в 09:28

Dies ist eine schwierige Aufgabe, die nicht leicht zu lösen ist. Wenn Sie wirklich ein genaues Ergebnis wünschen, kopieren Sie Absatz für Absatz für Ihren PDF-Viewer in eine Textdatei und überprüfen Sie diese mit dem wc -wTool. Der Grund, warum pdftotextin diesem Fall nicht verwendet werden soll, ist: mathematische Formeln können auch in die Ausgabe gelangen und als "Wörter" betrachtet werden. (Alternativ können Sie die Ausgabe bearbeiten, die Sie erhalten pdftotext). Ein weiterer Grund, warum dies fehlschlagen kann, sind die Überschriften: "4.3.2 Foo Bar" wird als drei Wörter gezählt.

Ein Weg ist nur, Wörter zu zählen, die mit einem Zeichen außerhalb von [A-Za-z] beginnen. Was ich normalerweise mache, ist ein zweistufiger Ansatz:

Holen Sie sich die Liste der uniq-Wörter und prüfen Sie, ob zu viele Fehlalarme enthalten sind:

pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words

Ich verwende hier kein Wörterbuch, da einige Rechtschreibfehler nicht als Wörter gelten.
Holen Sie sich diese Wortliste und grep sie in der Ausgabe von pdftotext:

pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l

Ich weiß, dass dies in einem Einliner möglich ist, aber dann konnte ich das Filterergebnis vom ersten Schritt aus nicht leicht sehen. Das -Fkann Ihnen helfen, wie durch den Kommentar von moi unten angegeben (Danke).

Ich musste "grep-ff words" verwenden, da sich grep über "Unmatched [oder" [^] beschwert. Auf der Manpage: `` `-F, --fixed-strings Interpretieren Sie PATTERN als eine Liste fester Zeichenfolgen, die durch Zeilenumbrüche getrennt sind, von denen jede abgeglichen werden muss. (-F wird von POSIX angegeben.) `` ` moi vor 8 Jahren 1

2

Bruce Crawford 2016-04-12 в 03:01

A straightforward way to do this if you using Acrobat Pro is to export the PDF to a Microsoft Word document and then do the word count in Word. Alternatively, you can export it to a plain text file and use a word count utility in the text editor of your choice/. I just did a word count on a pdf article using the Word method and it took all of 30 seconds to complete.

Hope this helps.

Ich habe in Text konvertiert und wc -w Dateiname.txt ausgeführt. Es funktionierte. Vielen Dank. vijayst vor 7 Jahren 0

1

user55926 2014-08-18 в 11:44

Sie können OCRFeeder installieren . Wählen Sie dazu Datei-> PDF importieren-> Alle Seiten automatisch erkennen und erkennen-> Nach ODT exportieren, und das Dokument libreoffice writer ist bereit für die Wortzählung oder jede andere RTF-Funktion, die Sie verwenden möchten.

0

Christoph 2013-03-27 в 19:41

Ich finde den Wortzähler in Abrakadabra-Werkzeugen praktisch. Die Installation ist allerdings etwas schräg.

0

Vladimir 2017-11-06 в 16:12

De-facto-Standard, den Übersetzer seit etwa 2000 verwenden, ist das AnyCount-Tool zur Word-Zählung. Es zählt die Anzahl der Wörter in PDF und 37 anderen Formaten.

Vladimir, gibt es Referenzen Dritter (Erwähnungen in Büchern, Zeitungen, Zeitschriften, Marktüberprüfungen), dass Anycount in den Märkten für Wortzählung und Übersetzung häufig verwendet wird? Wie https://books.google.com/books?id=llKVpiO2q0EC&pg=PA19#v=onepage&q=any+count&f=false osgx vor 6 Jahren 0

0

Franck Dernoncourt 2018-08-17 в 03:41

Sie können das JavaScript der Adobe Acrobat-Konsole mit dem folgenden Code verwenden, den ich aus Dave Merchants Antwort auf forums.adobe.com entnommen habe :

var cnt=0; for (var p = 0; p < this.numPages; p++) cnt += getPageNumWords(p); console.println("There are " + cnt + " words in this file.");

Getestet mit Adobe Acrobat Pro DC 2018.011.20040 unter Windows 7 SP1 x64 Ultimate.

So aktivieren Sie die JavaScript-Konsole:

So starten Sie das JavaScript-Konsolenfenster:

CTRL + J

Zu Ihrer Information, wenn Sie die LaTeX-Quelle haben, die der PDF-Datei entspricht: Korrigieren Sie die Anzahl der Wörter eines LaTeX-Dokuments .

-3

Johnny Boy 2013-03-28 в 18:39

Ctrl+ Shift+ FErweiterte Suche eingeben Geben Sie das Wort ein und es wird gezählt, wie oft es im Dokument enthalten ist. Es ist keine Raketenwissenschaft.

Ich denke, Sie haben die Frage falsch verstanden ... "Wortzahl" bezieht sich normalerweise auf die Gesamtzahl der Wörter in einem Dokument und nicht auf die Anzahl eines bestimmten Wortes ... und ich denke, es wäre besser, wenn Sie es wären Um anzugeben, über welches Programm Sie sprechen - nicht alle PDF-Reader haben die gleichen Funktionen oder verwenden dieselben Tastenkombinationen. evilsoup vor 11 Jahren 8

Sie haben vielleicht nicht auf die Antwort des OP geantwortet, aber Ihr Beitrag hat mir sicherlich geholfen. Vielen Dank. : D mahela007 vor 9 Jahren 0

Accepted Answer · 2010-12-13 02:39:32

icyrock.com 2010-12-13 в 02:39

Schnelle Antwort:

pdftotext myfile.pdf - | wc -w

Lange Antwort:

Unter Unix können Sie Folgendes verwenden pdftotext:

http://linux.about.com/od/commands/l/blcmdl1_pdftote.htm

und dann das Wort zählen in der generierten Datei. Unter Unix können Sie Folgendes verwenden:

wc -w converted-pdf.txt

um das Wort zu zählen

Siehe auch den Kommentar von frabjous - im Grunde können Sie dies in einem Schritt tun, indem Sie stdoutstattdessen in eine temporäre Datei leiten :

pdftotext myfile.pdf - | wc -w

Es ist "pdftotext": Vergessen Sie nicht das e. Und Sie können einen einzigen Befehl verwenden: `pdftotext myfile.pdf - | wc -w`. frabjous vor 13 Jahren 10

@ frabjous Danke, die Antwort mit den Vorschlägen aktualisiert! icyrock.com vor 13 Jahren 1

Es ist erwähnenswert, dass `pdftotext` Teil von Xpdf ist, das auch für die Windows-Plattform verfügbar ist. Die Xpdf-Download-Seite befindet sich hier: http://www.foolabs.com/xpdf/download.html. 'wc' kann auch gefunden werden, aber alternativ kann man so ziemlich jedes Textverarbeitungsprogramm wie Word oder LibreOffice Writer verwenden. Sie zählen auch Wörter. (Für LibreOffice Writer gehen Sie auf Datei -> Eigenschaften -> Statistiken.) amenthes vor 8 Jahren 0

Zählen Sie die Anzahl der Wörter in einer PDF-Datei

9 Antworten auf die Frage

Verwandte Probleme