OCR mit nichtsprachlichem Text

4983
Daniel

Ich bin daran interessiert, OCR zu verwenden, um Text aus einem Dokument zu erkennen, das keine Wörter enthält. Es handelt sich vielmehr um ein Dokument mit einer langen Folge von "zufälligen" gedruckten Zeichen. Ich habe versucht, Tesseract zum Scannen des Textes zu verwenden, aber es scheint nach Wörtern zu suchen. Gibt es eine Möglichkeit, tesseract mitzuteilen, nur die Zeichenerkennung durchzuführen?

3
Ich habe die Frage aktualisiert, um die Beschwerde zu korrigieren. Daniel vor 11 Jahren 0
The old Presto! PageManager that came with the scanner, did not do spellchecking by default (windows), it has spell checker but post OCR. I wonder if you can dissapear the dictionary on any software doing auto correction, it could not do it then. The OCR is not by default looking at whole words, except mabey for alignment. Psycogeek vor 11 Jahren 0
@ Daniel - Jetzt ist es eine Frage, die tatsächlich beantwortet werden kann. Ramhound vor 11 Jahren 1

1 Antwort auf die Frage

2
nguyenq

Ja, Sie können die Wörterbücher deaktivieren, indem Sie eine Konfigurationsdatei definieren, die Folgendes enthält:

load_system_dawg F load_freq_dawg F 

und spezifizieren Sie es mit dem Befehl.

Dies scheint zu tun, was ich wollte. Leider sind die Ergebnisse für den Text, mit dem ich gearbeitet habe, nicht viel besser, aber sie beantworten die Frage. Vielen Dank! Daniel vor 11 Jahren 0