Lustige OCR-Situation

678
Paul Bergström

Ich habe eine mehrseitig gescannte 300-dpi-PDF-Datei auf einem Ubuntu 16.04-System.

Wenn ich den folgenden Befehl ausführen:

pdfocr -t -l swe -i *.pdf -o newfile.pdf 

Es ergibt sich eine perfekt lesbare OCR-Datei. Jedes einzelne Wort ist in jeder Größe und Form der Schriftarten durchsuchbar.

Der nächste Schritt im Prozess ist jedoch die Konvertierung dieser PDF-Datei in PDF / A-1b. Dies geschieht durch Ghostscript 9.18, das den Befehl ausführt:

gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i 

Die resultierende Datei wird als korrekte PDF / A-1b-Datei validiert, aber die Suchbarkeit der Datei hat sich wirklich stark verändert. Es scheint, als ob Ghostscript die OCR in den Papierkorb bringt.

Hat jemand eine Idee, was los ist?

Vielen Dank im Voraus.

/ Paul

2
Vielleicht hat pdfocr eine ungewöhnliche Kodierung. Haben Sie versucht, die Schritte rückgängig zu machen (erst konform zu machen, dann ok)? Yorik vor 7 Jahren 0
Nun, ich denke das sollte nicht gemacht werden. Eine PDF / A-Konformität sperrt die Datei. Danach können Sie nicht mehr hinzufügen, subtrahieren oder etwas in der Datei ändern. Paul Bergström vor 7 Jahren 0
Möglicherweise Fehler? "Unicode" (utf / encode / magic) Problem? schräg https://github.com/tesseract-ocr/tesseract/issues/357 Yorik vor 7 Jahren 0
Yorik, es scheint, als hättest du recht! Ich habe Ihren Link schon früher durchgesehen und bin überzeugt, dass Ghostscript einen Fehler enthält, der den Fehler erzeugt. Ich frage mich, ob das Team hinter Ghostscript dieses Problem kennt. Paul Bergström vor 7 Jahren 0
Da momentan ein Problem mit Ghostscript vorliegt - ich habe auch Version 9.19 mit dem gleichen Ergebnis ausprobiert -, möchte ich versuchen, mit PDFBox, einer Java-basierten Software, PDF / A-1b von PDF zu konvertieren. Hat jemand die geringste Ahnung, wie das gemacht wird? Ich habe nach einer Art Verwendungsbeschreibung gesucht, wie man dies macht, aber bisher ohne Erfolg. Paul Bergström vor 7 Jahren 0

0 Antworten auf die Frage