Sie könnten ABBYY FineReader ausprobieren . Es entspricht der Beschreibung Ihrer Bedürfnisse.
Durchsuchbare .pdf-OCR bearbeiten
Mein Fall ist ziemlich spezifisch, also versuche ich es schnell und genau zu erklären. Ich muss mehrere alte Papierblätter von 230 mm x 268 mm (4 ") gefaltet digitalisieren. Sie können ein schnelles gezogen Beispiel finden hier eine Vorstellung zu bekommen.
Das Scannen und Neuzusammenstellen ist nicht das eigentliche Problem, ich scanne jede Falte und füge sie über Photoshop zusammen. Was ich brauche, ist eine PDF-Datei mit dem Original-Bild der gescannten Seite und auch mit dem Text, der für Web-Suchmaschinen lesbar / durchsuchbar und indexierbar ist.
Wie Sie in der Verlosung oben sehen können, befinden sich auf der Seite auch einige ADS-Boxen, die ich nicht unbedingt als OCR-Zeichen kennzeichnen muss und daher weggelassen werden kann.
Jetzt habe ich Acrobat Pro X für die resultierende .pdf-Datei verwendet, die ich über Photoshop neu zusammengestellt habe. Die Ergebnisse sind ziemlich gut, aber natürlich nicht perfekt, und am problematischsten finde ich, dass Sie falsch ausgearbeiteten Text korrigieren und nicht benötigte Bereiche des Dokuments löschen oder ausschließen.
Ich würde gerne wissen, ob es eine Anwendung gibt, mit der zugrundeliegender OCR-Text auf praktische Weise bearbeitet werden kann, als dies mit Acrobat möglich ist. Adobe gibt in der Werkzeugleiste ein "Verdächtige auffinden" (was sehr ärgerlich sein kann), aber der verdächtige Text ist nicht immer vollständig mit dem, was wirklich falsch ist. Oft sind Zeichen, die er als richtig erkennt, überhaupt nicht (z. B. kursiv) "l" gilt als "/" und ähnlich); Leider besteht mein Text teilweise auch aus anderen Schriftarten, wie Japanisch oder Chinesisch, und der Text wird meistens als beschissener Jibberish dargestellt, daher muss ich auch den falschen Text entsprechend den auswählbaren Zeichen korrigieren.
Eine Art verglichener Editor, wie in einem Bereich das gescannte Bild, in dem anderen der OCR-Text eines ausgewählten Bereichs des Dokuments, wäre die beste Lösung, um die Fehler schnell und effizient zu beheben.
Möglichkeiten zum Definieren und Ausschließen von Bereichen des gescannten Dokuments, die von der OCR verarbeitet werden sollen, wären in der Tat eine sehr wichtige Funktion. Ich habe festgestellt, dass Sie mit Acrobat das Direktpfeil-Bearbeitungswerkzeug verwenden können, um Textrahmen zu entfernen, die irgendwie funktionell sein können, auch wenn sie ziemlich schwierig zu verwenden sind, da Sie meistens auf das gescannte Hintergrundbild klicken.
Irgendwelche Vorschläge für diese Art von Arbeit? Möglicherweise ein anderer Arbeitsablauf praktischer und / oder effizienter? Irgendwelche Tipps sind in der Tat willkommen!
Ich bin auf einer Win 7 64-Bit-Maschine.
1 Antwort auf die Frage
Verwandte Probleme
-
14
PDF Viewer unter Windows
-
8
Firefox PDF-Plugin zum Anzeigen von PDF-Dateien im Browser unter Windows
-
17
So drucken Sie Dokumente als PDF
-
2
Firefox zum Drucken von PDF-Schriftarten
-
13
Welche Vim-Funktionen verwenden Sie?
-
4
PDF Reader für iPhone
-
13
Bester LaTeX-Editor
-
6
Kleiner, leichter Texteditor / Notizgeber mit integrierter starker Verschlüsselung?
-
6
Adobe Reader: Kennwort für eine PDF-Datei merken
-
9
Software, mit der ich auf einem Mac papierlos arbeiten kann