Eine Möglichkeit, die Ergebnisse zu entfernen, besteht darin, sie vorzuverarbeiten, etwa indem Sie die Schräglage entfernen und sie dreschen. Sie können offenen Lebenslauf verwenden. Später können Sie den Text trainieren
Tesseract-OCR für englische Schriftarten trainieren
Ich habe etwa 3000 kleine Bilder von einzelnen Wörtern, die ich in Text umwandeln möchte. Ich habe Tesseract auf meinem Windows 7-Computer mit dem Installationsprogramm installiert und konnte OCR-Images über Cmd und Powershell erfolgreich verwalten.
tesseract.exe imagename.png imagename
erzeugt eine Textdatei mit dem konvertierten Text.
Die Ergebnisse, die ich erhielt, waren schrecklich, nur etwa 40% der Charaktere waren erfolgreich konvertiert. Ich möchte die Ergebnisse verbessern.
Weiß jemand, welche optionalen Konfigurationen in diesem Befehl angegeben werden können? Die erforderlichen Argumente sind:
tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]
Könnte auch jemand das Trainingsverfahren beschreiben, ich finde es schwierig, die Dokumentation zu verstehen . Ich weiß, dass mein Text in neuem Roman ist. Muss ich es für TNR trainieren oder ist das bereits eingebaut und / oder können Dateien heruntergeladen werden, die es von tesseract erkannt werden können?
1 Antwort auf die Frage
Verwandte Probleme
-
3
Welche Software kann Handschrift in Text umwandeln?
-
3
Wie kann ich Schriftarten aus einem Bild erkennen?
-
3
Was ist eine gute Handschrifterkennungssoftware?
-
9
Wie extrahiere ich Text mit OCR aus einem PDF unter Linux?
-
8
Praktische OCR-Lösung zum Konvertieren eines großen Buches in ein digitales Format?
-
8
Wie kann ich gescannte Bilder als PDF in eine durchsuchbare PDF-Datei konvertieren?
-
1
Ist es möglich, Acrobat von der Befehlszeile aus aufzurufen, um OCR auszuführen
-
7
Extrahieren von Text aus einem .PDF-gescannten Buch
-
3
Wie starte ich einen OCR-Scan in Microsoft Office Word 2010?
-
2
Bild in Text konvertieren