Tesseract OCR: Nicht unterstützter Bildtyp

4490
Nina

Ich habe die PDF-Datei in die TIF-Datei mit den folgenden Befehlen auf dem Terminal konvertiert

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

Dann versuchte ich, den makeboxBefehl auszuführen ,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

was zu folgendem Fehler geführt hat:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

Und wenn man davon ausgeht, dass es etwas mit dem libtiffBefehl zu tesseract -vtun hat, lief er und fand (oder vermutete), dass er fehlt

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

Es erzeugt dasselbe, auch wenn ich lib tiff deinstalliere und neu installiere. Nicht sicher, was mir hier fehlt. Bitte Rat!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

Ausgabe des Befehls brew info leptonica here

Bearbeiten Sie # 1

Produziert diese TIFF-Datei, GhostScriptdie den gleichen Fehler zurückgibt, wenn ich versuche, den makeboxBefehl auszuführen . Vielleicht fehlt mir noch etwas? Ich habe als Schriftgröße 50+ eingestellt. Ist das in Ordnung?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip (~ 4 MB)

Bearbeiten Sie # 2

Ich habe eine Seite mit TIF erstellt GhostScript, obwohl es nicht funktioniert?

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip (~ 60 KB)

5
wirklich coole Frage! Harry Moreno vor 9 Jahren 0
@ HarryMoreno Danke! irgendwelche Vorschläge? :) Nina vor 9 Jahren 0

1 Antwort auf die Frage

3
Cornelius

Ich denke, Sie folgen dem Beitrag von Michael Lissner, um Tesseract eine eigene Schriftart hinzuzufügen.

Ich habe das Gleiche (den convertBefehl) ausprobiert und mich mit einer kaputten TIFF beschafft, die mit keiner Anwendung geöffnet werden konnte.

Also habe ich die GUI-Alternative gewählt. Ich habe meinen Text in Scribus geschrieben (weil es mir möglich war, den Abstand zwischen den Zeichen zu vergrößern) und dann direkt als TIFF aus dem Menü Datei - Exportieren - Als Bild speichern exportiert . Ich habe eine Auflösung von 300 DPI gewählt.

Was können Sie noch probieren:

  • GIMP öffnet PDF-Dateien, die als TIFF gespeichert werden können
  • Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(konvertiert in diesem Fall alle Seiten)

Welche anderen Probleme können Sie haben:

  • Linux: Wenn Sie die Repo-Version von Tesseract installiert haben (zumindest in Ubuntu), verfügen Sie nicht über die erforderlichen ausführbaren Dateien: unicharset_extractorund mftraining(oder sie befinden sich nicht im Pfad, da das Paket sie enthalten sollte ).
Das ist genau der gleiche Beitrag, den ich verfolgt habe. Ich würde es versuchen und Ihnen sagen, wie es gelaufen ist! Vielen Dank! Nina vor 9 Jahren 0
Kannst du bitte meine aktualisierte Frage überprüfen? Nina vor 9 Jahren 0
@Nina, das ist eine 75-Seiten-TIFF. Ich glaube nicht, dass es mehrseitig geht. Cornelius vor 9 Jahren 0
Also sollte ich es aus einer einzigen Seite machen und es versuchen? @Cornelius Was ist, wenn ich mehrseitige TIFs will? Nina vor 9 Jahren 0
@Nina weiß nicht was ich sagen soll. Ich empfehle die Erstellung von 3 A4-TIFFs (eines für reguläre, fette und kursive) mit 300 DPI-Graustufen. In meinem Fall hat es perfekt funktioniert. Auch die TIFFs waren nicht größer als 600 MB. Cornelius vor 9 Jahren 0
Danke für die Hilfe, Cornelius .. Ich würde es wie vorgeschlagen tun und mein Glück versuchen! Wird Ihre als Antwort markieren, sobald ich es für eine einzelne Seite bekomme :) Nochmals vielen Dank !! Nina vor 9 Jahren 0
auch einzelne tif tif funktioniert nicht für mich :( Nina vor 9 Jahren 0
Sie können immer ein Bash-Skript erstellen, um alle Seiten zu stapeln. Aber ja, Sie müssen zuerst eine einzige Seite zum Laufen bringen. Harry Moreno vor 9 Jahren 1
@HarryMoreno Der Versuch, einzelne Seiten zum Laufen zu bringen .. Nina vor 9 Jahren 0