Wie trainiere ich Tesseract, um die Wellenlinien zu ignorieren, die durch die Erkennung von Rechtschreib- und Grammatikfehlern hinzugefügt wurden?

518
GdD

Ich verwende Tesseract zum Erkennen von Text in einer Vielzahl von Bildtypen, einschließlich Screenshots. Verwirrt werden die gewellten roten und blauen Unterstreichungen für Rechtschreib- und Grammatikwarnungen, wie im folgenden Beispiel. Am Ende bekomme ich entweder keinen Text oder ein Durcheinander.

Wie trainiere ich Tesseract, um die Wellenlinien zu ignorieren, die durch die Erkennung von Rechtschreib- und Grammatikfehlern hinzugefügt wurden?

Ich habe nach Wegen gesucht, diese Zeilen in der imagemagick-Vorverarbeitung mit einigem Erfolg zu beseitigen, aber diese Methoden löschen jeden Text aus, der rot oder blau ist, was unerwünscht ist. Außerdem dauert es lange, bis sie ausgeführt wird, und ich muss über 100 KB verarbeiten Bilder pro Tag. Ich denke, dass es vielleicht eine Möglichkeit gibt, Tesseract zu trainieren, um diese Zeilen zu erkennen und zu verwerfen, aber ich bin nicht sicher, wie das funktionieren würde.

Ich habe Tutorials gesehen, wie man Tesseract trainiert, um Text zu erkennen, aber ich habe noch nichts gesehen, wie man trainiert, um etwas zu erkennen, das kein Text ist. Gibt es eine Möglichkeit, Tesseract zu trainieren oder etwas mit dem verwendeten Leptonica-Setup zu tun, um diese Zeilen zu ignorieren?

Wenn sich jemand erfolgreich damit befasst hat, lassen Sie es mich wissen, was wäre sonst der empfohlene Ansatz?

1

0 Antworten auf die Frage