Tesseract-OCR für englische Schriftarten trainieren

Question

Tesseract-OCR für englische Schriftarten trainieren

3072

andrew 2011-01-19 в 19:51

Ich habe etwa 3000 kleine Bilder von einzelnen Wörtern, die ich in Text umwandeln möchte. Ich habe Tesseract auf meinem Windows 7-Computer mit dem Installationsprogramm installiert und konnte OCR-Images über Cmd und Powershell erfolgreich verwalten.

 tesseract.exe imagename.png imagename

erzeugt eine Textdatei mit dem konvertierten Text.

Die Ergebnisse, die ich erhielt, waren schrecklich, nur etwa 40% der Charaktere waren erfolgreich konvertiert. Ich möchte die Ergebnisse verbessern.

Weiß jemand, welche optionalen Konfigurationen in diesem Befehl angegeben werden können? Die erforderlichen Argumente sind:

tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]

Könnte auch jemand das Trainingsverfahren beschreiben, ich finde es schwierig, die Dokumentation zu verstehen . Ich weiß, dass mein Text in neuem Roman ist. Muss ich es für TNR trainieren oder ist das bereits eingebaut und / oder können Dateien heruntergeladen werden, die es von tesseract erkannt werden können?

3

Ich habe einige Schulungsunterlagen für das Training http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3 gefunden andrew vor 13 Jahren 0

After reading the instructions that @andrew (you) found, what part are you not understanding? How far have you gotten in that process? Everett vor 12 Jahren 0

1 Antwort auf die Frage

0

Accepted Answer · 2013-12-08 19:08:34

Pranaysharma 2013-12-08 в 19:08

Eine Möglichkeit, die Ergebnisse zu entfernen, besteht darin, sie vorzuverarbeiten, etwa indem Sie die Schräglage entfernen und sie dreschen. Sie können offenen Lebenslauf verwenden. Später können Sie den Text trainieren

Tesseract-OCR für englische Schriftarten trainieren

1 Antwort auf die Frage

Verwandte Probleme