Wie macht man OCR in einem PDF-Dokument?

5203
Shaul Behr

Mögliches Duplizieren:
Wie extrahiere ich Text mit OCR aus einem PDF unter Linux?

Ich habe einige Dokumente in Englisch und Hebräisch, die ich eingescannt und in das PDF-Format konvertiert habe.

Gibt es ein kostenloses oder billiges Dienstprogramm, das ein gescanntes PDF verarbeiten kann und OCR zumindest in Englisch, vorzugsweise auch in Hebräisch, ausführt?

Vielen Dank!

5
Ein paar ähnliche Fragen. http://superuser.com/questions/28426/how-to-extract-text-with-ocr-von-a-pdf-on-linux/33203#33203 http://superuser.com/questions/64124/extracting -text-from-a-pdf-scan-book http://superuser.com/questions/97470/scan-a4-doc-pdf-ocr-translate-nach-deutsch heavyd vor 14 Jahren 0
Der Autor dieser Frage hat nicht angegeben, dass er Linux ausführt. Die so genannte mögliche Duplikatfrage ist zu lokalisiert und trifft möglicherweise nicht auf den Autor dieser Frage zu. eleven81 vor 14 Jahren 6
@ eleven81 - Richtig, ich habe nach Windows gefragt. Shaul Behr vor 13 Jahren 3
Nicht nur das ist nicht doppelt, es ist immer noch unbeantwortet. Alle 3 Antworten ergeben nur Textauszüge und nicht ein durch PDF auswählbares Dokument. cregox vor 10 Jahren 0

3 Antworten auf die Frage

1
eleven81

Ich habe eine interessante Idee gefunden, die es Google ermöglicht, die gesamte Arbeit der OCR-Erstellung der PDF-Dateien für Sie zu erledigen.

Anstelle des Links ist es jetzt einfacher, http://docs.google.com/viewer zu verwenden. ShreevatsaR vor 13 Jahren 0
1
eleven81

Ich habe eine Liste der kostenlosen OCR-Software für Windows gefunden.

  1. FreeOCR
  2. Tesseract
  3. WeOcr Tesseract-Webschnittstelle
  4. GOCR
  5. Windows GUI für GOCR
  6. OCR-Desktop
  7. Einfache OCR
  8. TopOCR

Diese Programme benötigen jedoch eine Bildeingabe, keine PDF-Eingabe. Versuchen Sie dazu einen PDF-zu-JPG-Konverter .

0
Dennis

Ich persönlich würde Ghostview verwenden, um sie in ein Bild zu konvertieren, und dann Tesseract, um sie in Text zu konvertieren. Dies ist eine völlig kostenlose, quellplattformübergreifende Open-Source-Lösung, mit der ich beim Konvertieren von Nur-Text sehr gute Ergebnisse erzielt habe. Ich verwende es nicht für komplexe Dokumente mit Tabellen und dergleichen, aber für einfachen Text kann man den Preis nicht schlagen.