Lustige OCR-Situation
715
Paul Bergström
Ich habe eine mehrseitig gescannte 300-dpi-PDF-Datei auf einem Ubuntu 16.04-System.
Wenn ich den folgenden Befehl ausführen:
pdfocr -t -l swe -i *.pdf -o newfile.pdf
Es ergibt sich eine perfekt lesbare OCR-Datei. Jedes einzelne Wort ist in jeder Größe und Form der Schriftarten durchsuchbar.
Der nächste Schritt im Prozess ist jedoch die Konvertierung dieser PDF-Datei in PDF / A-1b. Dies geschieht durch Ghostscript 9.18, das den Befehl ausführt:
gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i
Die resultierende Datei wird als korrekte PDF / A-1b-Datei validiert, aber die Suchbarkeit der Datei hat sich wirklich stark verändert. Es scheint, als ob Ghostscript die OCR in den Papierkorb bringt.
Hat jemand eine Idee, was los ist?
Vielen Dank im Voraus.
/ Paul
Vielleicht hat pdfocr eine ungewöhnliche Kodierung. Haben Sie versucht, die Schritte rückgängig zu machen (erst konform zu machen, dann ok)?
Yorik vor 8 Jahren
0
Nun, ich denke das sollte nicht gemacht werden. Eine PDF / A-Konformität sperrt die Datei. Danach können Sie nicht mehr hinzufügen, subtrahieren oder etwas in der Datei ändern.
Paul Bergström vor 8 Jahren
0
Möglicherweise Fehler? "Unicode" (utf / encode / magic) Problem? schräg https://github.com/tesseract-ocr/tesseract/issues/357
Yorik vor 8 Jahren
0
Yorik, es scheint, als hättest du recht! Ich habe Ihren Link schon früher durchgesehen und bin überzeugt, dass Ghostscript einen Fehler enthält, der den Fehler erzeugt. Ich frage mich, ob das Team hinter Ghostscript dieses Problem kennt.
Paul Bergström vor 8 Jahren
0
Da momentan ein Problem mit Ghostscript vorliegt - ich habe auch Version 9.19 mit dem gleichen Ergebnis ausprobiert -, möchte ich versuchen, mit PDFBox, einer Java-basierten Software, PDF / A-1b von PDF zu konvertieren. Hat jemand die geringste Ahnung, wie das gemacht wird? Ich habe nach einer Art Verwendungsbeschreibung gesucht, wie man dies macht, aber bisher ohne Erfolg.
Paul Bergström vor 8 Jahren
0
0 Antworten auf die Frage
Verwandte Probleme
-
14
PDF Viewer unter Windows
-
8
Firefox PDF-Plugin zum Anzeigen von PDF-Dateien im Browser unter Windows
-
17
So drucken Sie Dokumente als PDF
-
2
Firefox zum Drucken von PDF-Schriftarten
-
4
PDF Reader für iPhone
-
6
Adobe Reader: Kennwort für eine PDF-Datei merken
-
4
Kann ich einer PDF-Datei eigene Lesezeichen / Registerkarten hinzufügen?
-
5
Welche Adobe Acrobat-Alternativen verfügen über PDF-Signaturfunktionen
-
3
Welche Software kann Handschrift in Text umwandeln?
-
1
Ein Inhaltsverzeichnis für viele .odt-Dateien erstellen