Gibt es wirklich keine Möglichkeit, Ghostscript dazu zu bringen, dieses Problem zu lösen (mit Leerzeichen zwischen den Zeichen)?
Ken Sharp sagt
Ihnen scheint es eine Einschränkung in der Acrobat-Suchfunktion zu geben, die sich durch die Art der Textausgabe bemerkbar macht.
Ich denke, er sagt, dass nicht Ghostscript die Leerzeichen zwischen den Zeichen hinzufügt.
Und ich glaube an seine Erklärung. Der PDFWrite-Gerätetreiber unterliegt den Einschränkungen eines Gerätetreibers in Ghostscript. Ich kann mir vorstellen, dass die API dazu gedacht ist, Markierungen auf sichtbaren Oberflächen zu erstellen, nicht für etwas anderes, das später eingefädelt wurde.
Insbesondere der Begriff, dass eine Folge von Marken ein Wort darstellt, ist für die Erstellung von Marken an bestimmten Positionen ohne Bedeutung. Das Markierungsgerät muss nicht den Unterschied zwischen Abstand und Abstand (Kerning usw.) kennen.
Eine Art Folgerung dazu ist, dass Wörter, soweit ich weiß, nichts in PDF oder in ihrem Vorfahren-Postscript sind. Sie müssen keine Wörter nachverfolgen und bieten keine spezifische Möglichkeit, sie innerhalb des Inhalts von PDF- oder PS-Dateien zu identifizieren.
Gibt es eine Open-Source-Alternative zu Ghostscript, mit der gescannte PDF-Dateien stapelweise in PDF / A-1b konvertiert werden können, ohne die OCR zu beeinträchtigen
Soweit ich weiß, definieren die PDF-Spezifikationen nicht "gescanntes PDF" oder "OCR". Einige PDF-Authoring-Tools verwenden vermutlich PDF-Funktionen geschickt, wenn sie PDF-Dateien aus gescannten Bildern erstellen und wenn sie Text, der mit OCR erstellt wurde, unsichtbar einfügen. Dies ermöglicht das Durchsuchen von Texten und Ausschneiden und Einfügen der erstellten PDF-Datei. Dies wäre nicht möglich, wenn nur das Bitmap-Bild vorhanden wäre.
Solche PDFs können nützlich sein, aber sie sind wirklich etwas abscheulich. Es ist immer besser, ein PDF aus einer nicht gescannten Quelle zu erstellen, sofern verfügbar.
PDF war ursprünglich als "endgültiges" Dokumentformat gedacht. Es war nicht beabsichtigt, weitere Manipulationen daran vornehmen zu lassen.
Es muss jedoch möglich sein, dass andere Programme, die die PDF-Bearbeitung unterstützen, dies tun, ohne dass die Konvertierung durch eine Druck-API erzwungen werden muss. In diesem Fall können sie dies so tun, dass ein Ergebnis erzielt wird, das besser zu den Macken von Acrobat und anderer PDF-Lesesoftware passt.