Reduzieren stark gescannter PDF-Dateien (nur OCR beibehalten und gescanntes Bild entfernen)

389
Enora

Ich habe ein stark gescanntes PDF mit OCR. Ich konnte seine Größe mit ghostscript win64 um die Hälfte reduzieren, mit diesem Befehl (wie in dieser Antwort empfohlen ):

gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf 

Aber es ist immer noch nicht leicht genug.

Ich könnte das PDF auch mit Calibre oder pdftotext von xpdf konvertieren, aber ich verliere das Layout.

Gibt es eine Möglichkeit, die OCR zu extrahieren, wobei die genaue Position jedes Texts auf jeder Seite beim Entfernen des gescannten Bildes berücksichtigt wird?

0

0 Antworten auf die Frage