So extrahieren Sie Text aus einer bildbasierten PDF-Datei mit Cuneiform in terminal

957
codezombie

cuneiform -l eng -f text -o outocr.txt input.pdf

Wenn der obige Befehl im Terminal ausgeführt wird, wird nur der Text meiner PDF-Titelseite in die Datei outocr.txt ausgegeben. Was muss ich tun, damit der gesamte Text in der 120-seitigen PDF-Datei erkannt wird? Ich verwende Fedora Linux 25 (x86_64).

0

1 Antwort auf die Frage

2
gantner

Dieser Beitrag enthält ein Beispielskript, durch das Sie viele einzelne Seiten lesen und eine mehrseitige PDF-Datei erstellen können. Cuneiform selbst erstellt keine mehrseitigen Dokumente. Wie extrahiere ich Text mit OCR aus einem PDF unter Linux?