Installieren Sie Tesseract OCR 3 unter OSX

6602
Billy Moon

Ich versuche, Tesseract OCR unter OSX 10.6 zu installieren ...

Ich bin so weit gekommen, Leptonic (durch Herunterladen von src und Installieren mit ./configure; make; sudo make install) scheinbar ohne Probleme zu installieren - aber ich weiß nicht, wie ich das überprüfen soll.

Ich habe auch Tesseract OCR 3 (von Google Code mit ./runautoconf; ./configure; make; sudo make install) scheinbar ohne Probleme installiert - aber ich weiß nicht, wie ich das überprüfen soll.

Wenn ich renne, tesseract input.jpg .bekomme ich einen Fehler ...

 bash-3.2$ tesseract ~/Desktop/DCIM/101_FUJI/DSCF1043.JPG .  Tesseract Open Source OCR Engine with Leptonica Error in pixReadStreamJpeg: function not present Error in pixReadStream: jpeg: no pix returned Error in pixRead: pix not read  Error in fopenReadStream: file not found  Error in pixRead: image file not found Image file ###### Exif cannot be read!  

Ähnliche Fehlermeldung, wenn ich eine TIFF-Datei als Eingabe verwende.

Ich denke, ich brauche ein paar Bibliotheken - Anweisungen für Ubuntu sagen, dass ich libjpeg12-dev etc installieren soll ...

Hat jemand Details, wie man Tesseract unter OSX installiert?

0

3 Antworten auf die Frage

2
tajh

Installieren Sie macports: Downloads und Installationsanweisungen finden Sie unter http://www.macports.org/ .

Aktualisieren Sie den Ports-Baum: sudo port selfupdate

Tesseract installieren: sudo port install tesseract

Der Tesseract-Port scheint keine Variante zu haben, die jpeg unterstützt. Daher müssen Sie einen Grafikdateikonverter und ein Bildanpassungspaket (Helligkeit, Kontrast und Schärfe) installieren: sudo port install imagemagick

Konvertieren Sie Ihr JPEG-Format in ein TIFF-Format und führen Sie dann eine OCR mit tesseract durch: convert input.jpg input.tiff ; tesseract input.tiff ocr-text-ouput -l eng ; rm input.tiff

Der resultierende Text sollte in der Datei ocr-text-ouput.txt enthalten sein.

Sie können das Bild ein wenig anpassen, um mit den folgenden Konvertierungsoptionen ein besseres OCR-Erlebnis zu erzielen: convert -sharpen 1 -brightness-contrast 3X30 input.jpg input.tiff

Ich musste 'tesseract-eng' installieren, um den Segmentierungsfehler 11 zu umgehen. Ian vor 11 Jahren 0
2
shig

Ich verwende Homebrew für osx 10.7 und es war so einfach, diese beiden Befehle auszuführen:

brew install leptonica brew install tesseract 

Dies installierte Leptonica 1.68 und Tesseract 3.01 mit ihren Abhängigkeiten

0
user3291575

Eine Befehlslösung für mich arbeiten:

sudo brew install tesseract 

Diese Installation tesseract und alle Abhängigkeiten. Sudo für einige Zwecke erforderlich, wie z. B. JPEG-Paketverknüpfung.