Dieser Beitrag enthält ein Beispielskript, durch das Sie viele einzelne Seiten lesen und eine mehrseitige PDF-Datei erstellen können. Cuneiform selbst erstellt keine mehrseitigen Dokumente. Wie extrahiere ich Text mit OCR aus einem PDF unter Linux?
So extrahieren Sie Text aus einer bildbasierten PDF-Datei mit Cuneiform in terminal
957
codezombie
cuneiform -l eng -f text -o outocr.txt input.pdf
Wenn der obige Befehl im Terminal ausgeführt wird, wird nur der Text meiner PDF-Titelseite in die Datei outocr.txt ausgegeben. Was muss ich tun, damit der gesamte Text in der 120-seitigen PDF-Datei erkannt wird? Ich verwende Fedora Linux 25 (x86_64).
1 Antwort auf die Frage
2
gantner
Verwandte Probleme
-
9
Was ist der Unterschied zwischen den Befehlen "su -s" und "sudo -s"?
-
14
PDF Viewer unter Windows
-
4
Gutes freies Ubuntu Server-VMWare-Image benötigt
-
8
Firefox PDF-Plugin zum Anzeigen von PDF-Dateien im Browser unter Windows
-
4
Was sind die Unterschiede zwischen den großen Linux-Distributionen? Werde ich es merken
-
2
Begrenzung der CPU-Auslastung für Flash in Firefox?
-
2
Wie kann ich mein Mikrofon unter Debian GNOME zum Laufen bringen?
-
2
Conky-Setups - Beispiele / Ideen?
-
3
Was sind die Unterschiede zwischen Linux Window Managern?
-
2
ThunderBird / Lichtsynchronisation mit SE k770i