Zählen Sie die Anzahl der Wörter in einer PDF-Datei
84422
osgx
Wie kann ich die Anzahl der Wörter einer PDF-Datei ermitteln? Ich denke, dass die meisten PDF-Dateien, für die ich die Gesamtzahl der Wörter erhalten möchte, eine eingebettete Textebene haben, sodass ich keine OCR benötige.
Die Aufgabe wurde durch die Suche nach wissenschaftlichen Veröffentlichungen bekannter Größe, z. B. 15000 Wörtern, geschaffen. Die meisten Moders-Papiere werden im PDF-Format veröffentlicht
und dann das Wort zählen in der generierten Datei. Unter Unix können Sie Folgendes verwenden:
wc -w converted-pdf.txt
um das Wort zu zählen
Siehe auch den Kommentar von frabjous - im Grunde können Sie dies in einem Schritt tun, indem Sie stdoutstattdessen in eine temporäre Datei leiten :
pdftotext myfile.pdf - | wc -w
Es ist "pdftotext": Vergessen Sie nicht das e. Und Sie können einen einzigen Befehl verwenden: `pdftotext myfile.pdf - | wc -w`.
frabjous vor 13 Jahren
10
@ frabjous Danke, die Antwort mit den Vorschlägen aktualisiert!
icyrock.com vor 13 Jahren
1
Es ist erwähnenswert, dass `pdftotext` Teil von Xpdf ist, das auch für die Windows-Plattform verfügbar ist. Die Xpdf-Download-Seite befindet sich hier: http://www.foolabs.com/xpdf/download.html. 'wc' kann auch gefunden werden, aber alternativ kann man so ziemlich jedes Textverarbeitungsprogramm wie Word oder LibreOffice Writer verwenden. Sie zählen auch Wörter. (Für LibreOffice Writer gehen Sie auf Datei -> Eigenschaften -> Statistiken.)
amenthes vor 8 Jahren
0
10
Adam
Ich habe gerade ein kostenloses Programm ausprobiert, Translator's Abacus . Sie können verschiedene Dateitypen (einschließlich PDF) ziehen und ablegen. Ein Browser zeigt einen druckbaren Bericht über die Wortanzahl für jedes Dokument an. Es hat gut für mich funktioniert. (Es wurde speziell für die Wortzählung erstellt und ist nur 435 KB groß, dh keine "große Anwendung"). Der Abakus des Übersetzers funktioniert nicht für PDF 1.5 oder höher.
Alternativ : Sie können mit Ctrl+ nur Aden gesamten Text in Acrobat Reader auswählen und dann in ein Programm wie Microsoft Word kopieren (einfügen, das in der Statusleiste am unteren Bildschirmrand eine Anzahl von Wörtern enthält).
In (vielen?) PDFs wählt Crl + A nur die Wörter auf der aktuellen Seite aus, nicht das gesamte Dokument. Der Abakus des Übersetzers funktioniert jedoch perfekt, großartig!
Junuxx vor 12 Jahren
0
Korrektur, Abacus des Übersetzers funktioniert nicht für PDF 1.5 oder höher.
Junuxx vor 12 Jahren
3
+1 Strg + A im Adobe Reader zusammen mit WinMerge funktionieren in Windows hervorragend!
superjos vor 11 Jahren
0
10
math
Dies ist eine schwierige Aufgabe, die nicht leicht zu lösen ist. Wenn Sie wirklich ein genaues Ergebnis wünschen, kopieren Sie Absatz für Absatz für Ihren PDF-Viewer in eine Textdatei und überprüfen Sie diese mit dem wc -wTool. Der Grund, warum pdftotextin diesem Fall nicht verwendet werden soll, ist: mathematische Formeln können auch in die Ausgabe gelangen und als "Wörter" betrachtet werden. (Alternativ können Sie die Ausgabe bearbeiten, die Sie erhalten pdftotext). Ein weiterer Grund, warum dies fehlschlagen kann, sind die Überschriften: "4.3.2 Foo Bar" wird als drei Wörter gezählt.
Ein Weg ist nur, Wörter zu zählen, die mit einem Zeichen außerhalb von [A-Za-z] beginnen. Was ich normalerweise mache, ist ein zweistufiger Ansatz:
Holen Sie sich die Liste der uniq-Wörter und prüfen Sie, ob zu viele Fehlalarme enthalten sind:
Ich weiß, dass dies in einem Einliner möglich ist, aber dann konnte ich das Filterergebnis vom ersten Schritt aus nicht leicht sehen. Das -Fkann Ihnen helfen, wie durch den Kommentar von moi unten angegeben (Danke).
Ich musste "grep-ff words" verwenden, da sich grep über "Unmatched [oder" [^] beschwert. Auf der Manpage: `` `-F, --fixed-strings Interpretieren Sie PATTERN als eine Liste fester Zeichenfolgen, die durch Zeilenumbrüche getrennt sind, von denen jede abgeglichen werden muss. (-F wird von POSIX angegeben.) `` `
moi vor 8 Jahren
1
2
Bruce Crawford
A straightforward way to do this if you using Acrobat Pro is to export the PDF to a Microsoft Word document and then do the word count in Word. Alternatively, you can export it to a plain text file and use a word count utility in the text editor of your choice/. I just did a word count on a pdf article using the Word method and it took all of 30 seconds to complete.
Hope this helps.
Ich habe in Text konvertiert und wc -w Dateiname.txt ausgeführt. Es funktionierte. Vielen Dank.
vijayst vor 7 Jahren
0
1
user55926
Sie können OCRFeeder installieren . Wählen Sie dazu Datei-> PDF importieren-> Alle Seiten automatisch erkennen und erkennen-> Nach ODT exportieren, und das Dokument libreoffice writer ist bereit für die Wortzählung oder jede andere RTF-Funktion, die Sie verwenden möchten.
De-facto-Standard, den Übersetzer seit etwa 2000 verwenden, ist das AnyCount-Tool zur Word-Zählung. Es zählt die Anzahl der Wörter in PDF und 37 anderen Formaten.
Vladimir, gibt es Referenzen Dritter (Erwähnungen in Büchern, Zeitungen, Zeitschriften, Marktüberprüfungen), dass Anycount in den Märkten für Wortzählung und Übersetzung häufig verwendet wird? Wie https://books.google.com/books?id=llKVpiO2q0EC&pg=PA19#v=onepage&q=any+count&f=false
osgx vor 6 Jahren
0
Ctrl+ Shift+ FErweiterte Suche eingeben Geben Sie das Wort ein und es wird gezählt, wie oft es im Dokument enthalten ist. Es ist keine Raketenwissenschaft.
Ich denke, Sie haben die Frage falsch verstanden ... "Wortzahl" bezieht sich normalerweise auf die Gesamtzahl der Wörter in einem Dokument und nicht auf die Anzahl eines bestimmten Wortes ... und ich denke, es wäre besser, wenn Sie es wären Um anzugeben, über welches Programm Sie sprechen - nicht alle PDF-Reader haben die gleichen Funktionen oder verwenden dieselben Tastenkombinationen.
evilsoup vor 11 Jahren
8
Sie haben vielleicht nicht auf die Antwort des OP geantwortet, aber Ihr Beitrag hat mir sicherlich geholfen. Vielen Dank. : D
mahela007 vor 9 Jahren
0