Optimale Schrift für Tesseract? (speziell der .NET-Wrapper)

1291
user613051

Ich verwende Tesseract, um gedruckte Textdokumente, die mit meiner Handykamera aufgenommen wurden, in Text umzuwandeln. Die Ergebnisse sind nicht so toll. Die Qualität des Bildes ist sehr gut, viel klarer als ein Fax, aber es scheint sehr schwierig zu sein, Zeichen zu identifizieren.

Ich habe auch versucht, eines dieser Dokumente in einem Texteditor nachzubilden, einen Screenshot des Fensters zu erstellen und dieses durch Tesseract auszuführen, und die Ergebnisse sind nur geringfügig besser.

Dies lässt mich glauben, dass es wahrscheinlich eine optimale Schriftart für Tesseract gibt. Ich habe ein bisschen gegoogelt und bin auf OCR-A gestoßen, aber es erfordert anscheinend eine Lizenz. Ich stolperte dann über eine freie OCR-A-Alternative zu SourceFourge, aber es scheint nicht viel besser zu sein als Arial oder Courier New.

Gibt es eine Schrift, die am besten mit Tesseract funktioniert, oder muss ich etwas anderes tun, um die Genauigkeit der Zeichenerkennung zu erhöhen?

0
Sie haben das richtige Wörterbuch geladen, oder? Daniel B vor 8 Jahren 0
@ DanielB Guter Punkt. Ich verwende dies eigentlich als Mittel, um relativ kleine Dateien in base64 zu konvertieren und sie dann zur Sicherung auf Papier zu drucken. Es ist die gleiche Idee hinter Paperback. Haben Sie eine Idee, wie Sie mein eigenes Wörterbuch erstellen können? Ich könnte versuchen, ein Wörterbuch für jede mögliche base64-Zeichenfolge zu erstellen und zu sehen, ob dies bei der Genauigkeit hilft. user613051 vor 8 Jahren 0
Warum nicht auch Qr-Codes neben dem Text drucken? Máté Juhász vor 8 Jahren 0
@ MátéJuhász Ich habe mir überlegt, QR-Codes zu generieren, weil sie viele Daten enthalten können, aber ich bin nicht auf der Suche nach QR-Codeleser-Apps, die nicht jede der Menschheit bekannte Erlaubnis benötigen user613051 vor 8 Jahren 0

1 Antwort auf die Frage

0
cybernard

Sie sollten es am besten für die verwendete Schriftart trainieren.

Ich möchte nicht so tun, als sei dies ein einfacher Prozess, aber es sollte nicht besser funktionieren. Auch die meisten OCR-Programme bevorzugen 300dpi oder 600dpi, daher ist ein Upscaling möglicherweise erforderlich.

Das Tesseract Github Wiki enthält einige gute Ressourcen zum Training Tesseract .