Reduzieren stark gescannter PDF-Dateien (nur OCR beibehalten und gescanntes Bild entfernen)

430

Enora 2018-09-23 в 13:18

Ich habe ein stark gescanntes PDF mit OCR. Ich konnte seine Größe mit ghostscript win64 um die Hälfte reduzieren, mit diesem Befehl (wie in dieser Antwort empfohlen ):

gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf

Aber es ist immer noch nicht leicht genug.

Ich könnte das PDF auch mit Calibre oder pdftotext von xpdf konvertieren, aber ich verliere das Layout.

Gibt es eine Möglichkeit, die OCR zu extrahieren, wobei die genaue Position jedes Texts auf jeder Seite beim Entfernen des gescannten Bildes berücksichtigt wird?

Reduzieren stark gescannter PDF-Dateien (nur OCR beibehalten und gescanntes Bild entfernen)

0 Antworten auf die Frage

Verwandte Probleme