Tesseract-OCR für englische Schriftarten trainieren

3036
andrew

Ich habe etwa 3000 kleine Bilder von einzelnen Wörtern, die ich in Text umwandeln möchte. Ich habe Tesseract auf meinem Windows 7-Computer mit dem Installationsprogramm installiert und konnte OCR-Images über Cmd und Powershell erfolgreich verwalten.

 tesseract.exe imagename.png imagename 

erzeugt eine Textdatei mit dem konvertierten Text.

Die Ergebnisse, die ich erhielt, waren schrecklich, nur etwa 40% der Charaktere waren erfolgreich konvertiert. Ich möchte die Ergebnisse verbessern.

Weiß jemand, welche optionalen Konfigurationen in diesem Befehl angegeben werden können? Die erforderlichen Argumente sind:

tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...] 

Könnte auch jemand das Trainingsverfahren beschreiben, ich finde es schwierig, die Dokumentation zu verstehen . Ich weiß, dass mein Text in neuem Roman ist. Muss ich es für TNR trainieren oder ist das bereits eingebaut und / oder können Dateien heruntergeladen werden, die es von tesseract erkannt werden können?

3
Ich habe einige Schulungsunterlagen für das Training http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3 gefunden andrew vor 13 Jahren 0
After reading the instructions that @andrew (you) found, what part are you not understanding? How far have you gotten in that process? Everett vor 11 Jahren 0

1 Antwort auf die Frage

0
Pranaysharma

Eine Möglichkeit, die Ergebnisse zu entfernen, besteht darin, sie vorzuverarbeiten, etwa indem Sie die Schräglage entfernen und sie dreschen. Sie können offenen Lebenslauf verwenden. Später können Sie den Text trainieren