So extrahieren Sie Text aus einer bildbasierten PDF-Datei mit Cuneiform in terminal

Question

So extrahieren Sie Text aus einer bildbasierten PDF-Datei mit Cuneiform in terminal

957

codezombie 2017-01-31 в 09:27

cuneiform -l eng -f text -o outocr.txt input.pdf

Wenn der obige Befehl im Terminal ausgeführt wird, wird nur der Text meiner PDF-Titelseite in die Datei outocr.txt ausgegeben. Was muss ich tun, damit der gesamte Text in der 120-seitigen PDF-Datei erkannt wird? Ich verwende Fedora Linux 25 (x86_64).

0

1 Antwort auf die Frage

2

Accepted Answer · 2017-08-15 15:37:51

gantner 2017-08-15 в 15:37

Dieser Beitrag enthält ein Beispielskript, durch das Sie viele einzelne Seiten lesen und eine mehrseitige PDF-Datei erstellen können. Cuneiform selbst erstellt keine mehrseitigen Dokumente. Wie extrahiere ich Text mit OCR aus einem PDF unter Linux?

So extrahieren Sie Text aus einer bildbasierten PDF-Datei mit Cuneiform in terminal

1 Antwort auf die Frage

Verwandte Probleme