OCR von Ghostscript versaut

718
Paul Bergström

Letztes Jahr wurde ein Fehler in Ghostscript gefunden. Es ist hier dokumentiert: http://bugs.ghostscript.com/show_bug.cgi?id=696116

Es ist mit Status: RESOLVED WONTFIX gekennzeichnet

Am Ende schreibt der Bevollmächtigte Ken Sharp: "Leider sehe ich keine Lösung für die Lösung dieses Problems in Ghostscript."

Meine Frage an jemanden sind zwei:

  1. Gibt es wirklich keine Möglichkeit, Ghostscript dazu zu bringen, dieses Problem zu lösen (mit Leerzeichen zwischen den Zeichen)?
  2. Gibt es eine Open-Source-Alternative zu Ghostscript, mit der gescannte PDF-Dateien stapelweise in PDF / A-1b konvertiert werden können, ohne die OCR zu beeinträchtigen?

Vielen Dank im Voraus!

/ Paul

-1
Wenn Sie nicht bereit sind, den Programmierfehler zu beheben, wird er wahrscheinlich nicht behoben. Ich bin sicher, dass es Alternativen gibt, schlage ich vor, Sie finden eine. Ramhound vor 7 Jahren 0
Ja, ich weiß, dass es Alternativen gibt, aber soweit ich weiß, ist keine Open Source. Ich gehe daher davon aus, dass die Open-Source-OCR-Erkennungssoftware Tesseract das OCR-Lesen vornimmt und die Genauigkeit von anderen (proprietären) Softwares bei der Konvertierung nach PDF / A-1b vollständig beibehalten wird. In Ghostscript sollte es daher ein lösbares Problem sein Spezifikationen sind offen und bekannt. Ich habe jedoch nicht diese Fähigkeiten, um Änderungen am Ghostscript-Code vorzunehmen, aber unter den gegebenen Umständen sollte es möglich sein, dies für jemanden mit ausreichendem Wissen zu korrigieren. Paul Bergström vor 7 Jahren 0

1 Antwort auf die Frage

1
RedGrittyBrick

Gibt es wirklich keine Möglichkeit, Ghostscript dazu zu bringen, dieses Problem zu lösen (mit Leerzeichen zwischen den Zeichen)?

Ken Sharp sagt

Ihnen scheint es eine Einschränkung in der Acrobat-Suchfunktion zu geben, die sich durch die Art der Textausgabe bemerkbar macht.

Ich denke, er sagt, dass nicht Ghostscript die Leerzeichen zwischen den Zeichen hinzufügt.

Und ich glaube an seine Erklärung. Der PDFWrite-Gerätetreiber unterliegt den Einschränkungen eines Gerätetreibers in Ghostscript. Ich kann mir vorstellen, dass die API dazu gedacht ist, Markierungen auf sichtbaren Oberflächen zu erstellen, nicht für etwas anderes, das später eingefädelt wurde.

Insbesondere der Begriff, dass eine Folge von Marken ein Wort darstellt, ist für die Erstellung von Marken an bestimmten Positionen ohne Bedeutung. Das Markierungsgerät muss nicht den Unterschied zwischen Abstand und Abstand (Kerning usw.) kennen.

Eine Art Folgerung dazu ist, dass Wörter, soweit ich weiß, nichts in PDF oder in ihrem Vorfahren-Postscript sind. Sie müssen keine Wörter nachverfolgen und bieten keine spezifische Möglichkeit, sie innerhalb des Inhalts von PDF- oder PS-Dateien zu identifizieren.


Gibt es eine Open-Source-Alternative zu Ghostscript, mit der gescannte PDF-Dateien stapelweise in PDF / A-1b konvertiert werden können, ohne die OCR zu beeinträchtigen

Soweit ich weiß, definieren die PDF-Spezifikationen nicht "gescanntes PDF" oder "OCR". Einige PDF-Authoring-Tools verwenden vermutlich PDF-Funktionen geschickt, wenn sie PDF-Dateien aus gescannten Bildern erstellen und wenn sie Text, der mit OCR erstellt wurde, unsichtbar einfügen. Dies ermöglicht das Durchsuchen von Texten und Ausschneiden und Einfügen der erstellten PDF-Datei. Dies wäre nicht möglich, wenn nur das Bitmap-Bild vorhanden wäre.

Solche PDFs können nützlich sein, aber sie sind wirklich etwas abscheulich. Es ist immer besser, ein PDF aus einer nicht gescannten Quelle zu erstellen, sofern verfügbar.

PDF war ursprünglich als "endgültiges" Dokumentformat gedacht. Es war nicht beabsichtigt, weitere Manipulationen daran vornehmen zu lassen.

Es muss jedoch möglich sein, dass andere Programme, die die PDF-Bearbeitung unterstützen, dies tun, ohne dass die Konvertierung durch eine Druck-API erzwungen werden muss. In diesem Fall können sie dies so tun, dass ein Ergebnis erzielt wird, das besser zu den Macken von Acrobat und anderer PDF-Lesesoftware passt.

Ken Sharp sagt: "Was Sie anscheinend vor sich haben, ist eine Einschränkung in der Acrobat-Suchfunktion, die durch die Art der Textausgabe sichtbar wird." Diese mögliche Einschränkung betrifft jedoch nicht andere Software, nur Ghostscript. Logischerweise sollte es daher eine Möglichkeit geben, eine Problemumgehung zu finden oder ein Problem zu beheben. Leider habe ich nicht die notwendigen Fähigkeiten, um das Problem zu beheben :-). Danke auch für Ihre interessante Antwort :-) Paul Bergström vor 7 Jahren 0