Welches Format eignet sich am besten für die Bildschirmaufnahme in Vorbereitung auf OCR?

335
humanengr

In welchem ​​Format sollte ein Screenshot erstellt werden (png, tiff, pdf), um die beste OCR zu erhalten?

Führen einige OCR-Pakete die OCR für png oder tiff aus, um Text zu extrahieren, bevor das Bild in pdf konvertiert wird, um die höhere Auflösung des ersteren zu nutzen?

1
Das Problem ist nicht so sehr das Format wie Auflösung und Komprimierungsgrad. JakeGould vor 8 Jahren 0
Wie steuert man das auf einem Mac, wenn eine Bildschirmaufnahme gemacht wird? humanengr vor 8 Jahren 0
Eine normale Bildschirmkappe sollte funktionieren. JakeGould vor 8 Jahren 0
Ich bekomme unterschiedliche OCR-Qualität für mein MacBook Pro Retina, abhängig davon, welches Format für die Bildschirmkappe verwendet wird. Bei meinen kleinen Tests scheint es, als würde die Bildschirmkappe in PDF eine etwas bessere OCR ergeben. Aber das ist nur eine begrenzte Probe. Meine erste Frage war also, welches Format generell empfohlen wird. humanengr vor 8 Jahren 1
Das Problem mit Ihrer Frage ist eine meinungsbasierte Frage. Und ich habe einen Kommentar meiner Meinung hinterlassen, keine Antwort. Also ehrlich gesagt nicht viel anderes hinzuzufügen. JakeGould vor 8 Jahren 0
Die erste Frage ist die Frage, welcher Prozess die wenigsten Fehler ergibt. Das ist keine Meinung, das ist quantitatives Experimentieren. Die zweite Frage betrifft den Aufbau von Software. humanengr vor 8 Jahren 0
OCR bezieht sich auf einen generischen Prozess. Verschiedene Programme verwenden unterschiedliche Algorithmen und werden auf unterschiedliche Weise optimiert. Wenn Sie mit einem verlustfreien Bild beginnen, sollten sich die Bildformate nicht unterscheiden. Wenn Sie mit einem verlustbehafteten Bild beginnen, kann je nach Bild eine OCR-App besser als eine andere sein. Sie müssen mit Ihren eigenen Dateien und Software experimentieren. fixer1234 vor 8 Jahren 0
Um klar zu sein: Sie erfassen Text vom Bildschirm und nicht etwas, das eingescannt wird. Riking vor 8 Jahren 0
@ fixer1234 - Ich hatte gehofft, hier eine breitere Basis an experimentellen Ergebnissen zu finden als bei meinen bisherigen Tests. Und danke allen für das Hin und Her; es brachte mich dazu, meine Websuche als "OCR a tiff" umzuformulieren. Das hat mich zu einem Tesseract geführt (siehe z. B. Diskussion unter https://www.quora.com/Optical-Character-Recognition-Was-some-available-free-OCR-APIs-iOS-Android-REST -für-Scan-Quittungen). Da es vielleicht ein wenig ist, bevor ich das testen kann, wollte ich hier ein Update machen. humanengr vor 8 Jahren 0
@Riking - Ja, Text vom Bildschirm erfassen. humanengr vor 8 Jahren 0
Mir ist gerade eingefallen, dass die Bildschirmaufnahme nicht der beste Ausgangspunkt ist. Die meisten OCRs sind für gescannten Text mit etwa 300 dpi optimiert (sofern Sie keine für Screenshots entwickelte Software verwenden). Die meisten Monitore haben etwa 96 dpi. Ein Mac-Retina-Display ist zwar höher, aber die Bildschirmaufzeichnung gibt der OCR nicht viel Arbeit. Es ist frei von Artefakten, aber niedriger Auflösung. Sie erhalten möglicherweise bessere Ergebnisse, wenn Sie den Inhalt drucken, mit 250-300 dpi scannen und mit verlustfreier Komprimierung speichern. Verwenden Sie kein JPEG. Es basiert auf fotografischen Eigenschaften und erzeugt mit Text / Artwork schwere Artefakte. fixer1234 vor 8 Jahren 0
@ fixer1234 Danke - ich werde es versuchen, wenn ein reiner sw-Pfad nicht zufriedenstellend ist. humanengr vor 8 Jahren 0

0 Antworten auf die Frage