Wie trainiere ich Tesseract, um die Wellenlinien zu ignorieren, die durch die Erkennung von Rechtschreib- und Grammatikfehlern hinzugefügt wurden?
Ich verwende Tesseract zum Erkennen von Text in einer Vielzahl von Bildtypen, einschließlich Screenshots. Verwirrt werden die gewellten roten und blauen Unterstreichungen für Rechtschreib- und Grammatikwarnungen, wie im folgenden Beispiel. Am Ende bekomme ich entweder keinen Text oder ein Durcheinander.
Ich habe nach Wegen gesucht, diese Zeilen in der imagemagick-Vorverarbeitung mit einigem Erfolg zu beseitigen, aber diese Methoden löschen jeden Text aus, der rot oder blau ist, was unerwünscht ist. Außerdem dauert es lange, bis sie ausgeführt wird, und ich muss über 100 KB verarbeiten Bilder pro Tag. Ich denke, dass es vielleicht eine Möglichkeit gibt, Tesseract zu trainieren, um diese Zeilen zu erkennen und zu verwerfen, aber ich bin nicht sicher, wie das funktionieren würde.
Ich habe Tutorials gesehen, wie man Tesseract trainiert, um Text zu erkennen, aber ich habe noch nichts gesehen, wie man trainiert, um etwas zu erkennen, das kein Text ist. Gibt es eine Möglichkeit, Tesseract zu trainieren oder etwas mit dem verwendeten Leptonica-Setup zu tun, um diese Zeilen zu ignorieren?
Wenn sich jemand erfolgreich damit befasst hat, lassen Sie es mich wissen, was wäre sonst der empfohlene Ansatz?
0 Antworten auf die Frage
Verwandte Probleme
-
3
Imagemagick, Snow Leopard und PDF-Konvertierung
-
6
So führen Sie PDFs mit Imagemagick zusammen (Problemlösung)
-
1
Führen Sie den Befehl für ein Paar von Dateien aus
-
1
Bei ImageMagick 'Convert' wird die Auflösung nicht eingestellt?
-
1
ImageMagick - Ersetzen Sie den transparenten Teil einer GIF durch eine durchgehende Farbe.
-
2
XAMPP + Windows 7 + ImageMagick = Unmöglich?
-
2
Versuch, Rmagick unter Debian zu installieren
-
2
Nach der Installation von ImageMagick auf Ubuntu kann "display" nicht ausgeführt werden
-
5
Gibt es eine serverseitige Videomanipulationssoftware?
-
2
ImageMagick konvertieren