Gibt es eine Möglichkeit, ein Unicode-Skript zu extrahieren?
Wenn ich es für Unicode wie Hindi, Marathi oder Devanagari Script versuche, wird die falsche Ausgabe erzeugt.
Es scheint, dass nur Hindi
die Option "out of the box" unterstützt wird.
Sie müssen verwenden, um die -l lang
Option zu verwenden:
tesseract 1.png output.txt -l hin
Sie können Tesseract trainieren, um andere Sprachen wie Marathi
oder zu erkennen Devanagari
.
Siehe So verwenden Sie die bereitgestellten Tools, um Tesseract 3.0x für eine neue Sprache zu trainieren
TESSERACT (1) Handbuchseite
OPTIONEN
...
-l lang
Die zu verwendende Sprache. Wenn keine angegeben ist, wird Englisch angenommen. Es können mehrere Sprachen angegeben werden, getrennt durch Pluszeichen. Tesseract verwendet 3-stellige ISO 639-2-Sprachcodes. (Siehe SPRACHEN)
...
SPRACHEN
Derzeit sind Sprachpakete für die folgenden Sprachen verfügbar:
ara (arabisch), aze (Aserbauijani), bul (bulgarisch), katze (katalanisch), ces (tschechisch), chi_sim (vereinfachtes Chinesisch), chi_tra (traditionelles Chinesisch), chr (Cherokee), dan (dänisch), dan-frak (Dänisch (Fraktur)), deu (deutsch), ell (griechisch), eng (Englisch), enm (altes Englisch), epo (Esperanto), est (estnisch), fin (finnisch), fra (französisch), frm ( Altfranzösisch), glg (Galizisch), heb (hebräisch), hin (Hindi), hrv (Croation), hun (ungarisch), ind (indonesisch), ita (italienisch), jpn (japanisch), kor (koreanisch), lav (Lettisch), lit (litauisch), nld (niederländisch), nor (norwegisch), pol (polnisch), por (portugiesisch), ron (rumänisch), rus (russisch), slk (slowakisch), slv (slowenisch), sqi (Albanisch), spa (spanisch), srp (serbisch), swe (schwedisch), tam (Tamil), tel (Telugu), tgl (Tagalog), tha (thailändisch), tur (türkisch), ukrain (ukrainisch), vie (Vietnamesisch)
Um ein nicht standardmäßiges Sprachpaket mit dem Namen foo.traineddata zu verwenden, legen Sie die Umgebungsvariable TESSDATA_PREFIX so fest, dass die Datei unter TESSDATA_PREFIX / tessdata / foo.traineddata zu finden ist, und geben Sie Tesseract das Argument -l foo.
Quelle TESSERACT (1) Handbuchseite