Durchsuchbare .pdf-OCR bearbeiten

1166
Gruber

Mein Fall ist ziemlich spezifisch, also versuche ich es schnell und genau zu erklären. Ich muss mehrere alte Papierblätter von 230 mm x 268 mm (4 ") gefaltet digitalisieren. Sie können ein schnelles gezogen Beispiel finden hier eine Vorstellung zu bekommen.

Das Scannen und Neuzusammenstellen ist nicht das eigentliche Problem, ich scanne jede Falte und füge sie über Photoshop zusammen. Was ich brauche, ist eine PDF-Datei mit dem Original-Bild der gescannten Seite und auch mit dem Text, der für Web-Suchmaschinen lesbar / durchsuchbar und indexierbar ist.
Wie Sie in der Verlosung oben sehen können, befinden sich auf der Seite auch einige ADS-Boxen, die ich nicht unbedingt als OCR-Zeichen kennzeichnen muss und daher weggelassen werden kann.

Jetzt habe ich Acrobat Pro X für die resultierende .pdf-Datei verwendet, die ich über Photoshop neu zusammengestellt habe. Die Ergebnisse sind ziemlich gut, aber natürlich nicht perfekt, und am problematischsten finde ich, dass Sie falsch ausgearbeiteten Text korrigieren und nicht benötigte Bereiche des Dokuments löschen oder ausschließen.

Ich würde gerne wissen, ob es eine Anwendung gibt, mit der zugrundeliegender OCR-Text auf praktische Weise bearbeitet werden kann, als dies mit Acrobat möglich ist. Adobe gibt in der Werkzeugleiste ein "Verdächtige auffinden" (was sehr ärgerlich sein kann), aber der verdächtige Text ist nicht immer vollständig mit dem, was wirklich falsch ist. Oft sind Zeichen, die er als richtig erkennt, überhaupt nicht (z. B. kursiv) "l" gilt als "/" und ähnlich); Leider besteht mein Text teilweise auch aus anderen Schriftarten, wie Japanisch oder Chinesisch, und der Text wird meistens als beschissener Jibberish dargestellt, daher muss ich auch den falschen Text entsprechend den auswählbaren Zeichen korrigieren.

Eine Art verglichener Editor, wie in einem Bereich das gescannte Bild, in dem anderen der OCR-Text eines ausgewählten Bereichs des Dokuments, wäre die beste Lösung, um die Fehler schnell und effizient zu beheben.
Möglichkeiten zum Definieren und Ausschließen von Bereichen des gescannten Dokuments, die von der OCR verarbeitet werden sollen, wären in der Tat eine sehr wichtige Funktion. Ich habe festgestellt, dass Sie mit Acrobat das Direktpfeil-Bearbeitungswerkzeug verwenden können, um Textrahmen zu entfernen, die irgendwie funktionell sein können, auch wenn sie ziemlich schwierig zu verwenden sind, da Sie meistens auf das gescannte Hintergrundbild klicken.

Irgendwelche Vorschläge für diese Art von Arbeit? Möglicherweise ein anderer Arbeitsablauf praktischer und / oder effizienter? Irgendwelche Tipps sind in der Tat willkommen!

Ich bin auf einer Win 7 64-Bit-Maschine.

2

1 Antwort auf die Frage

3
user291737

Sie könnten ABBYY FineReader ausprobieren . Es entspricht der Beschreibung Ihrer Bedürfnisse.

Wo kann man das finden? Scott vor 10 Jahren 0
Ich habe gerade den Link hinzugefügt. Es ist keine freie Software. user291737 vor 10 Jahren 0
mmm danke für den tipp, ich werde es mal probieren. Gruber vor 10 Jahren 0
Es ist in der Tat ein sehr gültiges Programm, mit genau dem, was ich gefragt habe. Es ist anfangs etwas überwältigend, aber die Online-Dokumentation ist für einige einfache Aktionen sehr vollständig und intuitiv! Gruber vor 10 Jahren 0