Wie kann ich gescannte Bilder als PDF in eine durchsuchbare PDF-Datei konvertieren?

37381
slhck

Ich habe ein PDF eines gescannten Buches.

Ich suche nach einer kostenlosen Software, die OCR ausführt und dann eine Option bietet, um sie erneut als PDF oder Dokument zu speichern.

Ist dort eines?

19
Sie möchten die Bilder in der PDF-Datei in Text konvertieren? DaveParillo vor 15 Jahren 0
ja, aber ich möchte keine txt-datei als ausgabe. Ich möchte das gleiche PDF sehen, aber mit der Option, Strg + F zu drücken und Wörter usw. zu markieren. vor 15 Jahren 0
Sie werden es sehr schwer haben, diese PDF-Datei zu konvertieren, ohne Textformatierung und -stil zu verlieren. Ich habe noch keine OCR-Software gefunden, die in der Lage ist, ein Dokument ordnungsgemäß von gescannten Bildern zu erhalten. bereiten Sie sich auf einige Eselarbeiten vor (zB Korrekturlesen usw.) :) vor 15 Jahren 0

8 Antworten auf die Frage

5
pelms

Sie können die 30-tägige Testversion von Adobe Acrobat Pro herunterladen und die Funktion 'OCR Texterkennung' verwenden ('Dokument> OCR-Texterkennung> Text erkennen mit OCR ...'). Wählen Sie im Einstellungsdialogfeld als Ausgabestil 'Durchsuchbares Bild'. Dadurch bleibt das Seitenbild erhalten, der OCR-Text wird jedoch eingebettet, so dass das Dokument durchsucht werden kann und Text ausgewählt, kopiert und eingefügt werden kann.

Nachdem Sie die OCR ausgeführt haben, müssen Sie die Worte bestätigen oder korrigieren, dass die OCR nicht sicher ist, ob Sie die Funktionen "OCR-Verdächtige suchen" verwenden.

Obwohl Adobe nicht kostenlos ist, ist es die mit Abstand leistungsfähigste OCR-Lösung James Healy vor 12 Jahren 0
4
harrymc

Die folgenden Produkte wurden im Internet aufgeführt, aber ich habe sie nicht verwendet.

Online-OCR

OCR-Terminal

OCR Terminal ist ein Online-OCR-Dienst, der die optische Zeichenerkennung (OCR) der gescannten Bilder und PDF-Dateien durchführt und sie in bearbeitbare und durch Text durchsuchbare Dokumente rendert.

Kostenlose OCR

Free-OCR.com ist ein kostenloses Online-OCR-Tool (Optical Character Recognition). Sie können dies verwenden, um OCR für jedes von Ihnen bereitgestellte Bild auszuführen.
Dieser Service ist kostenlos, keine Registrierung erforderlich. Wir benötigen auch keine E-Mail-Adresse.
Laden Sie einfach Ihre Bilddateien hoch. Bei Free-OCR werden entweder JPG, GIF, TIFF BMP oder PDF ( nur erste Seite ) verwendet. Die einzige Einschränkung ist, dass die Bilder nicht größer als 2 MB sein dürfen, nicht breiter oder höher als 5000 Pixel sein dürfen und dass es maximal 10 Bilder pro Stunde gibt.

Maestro Recognition Server ist kommerziell, hat jedoch eine Online-Demo zum Testen.

Gratis Software

FreeOCR - nur für Bilder.

FreeOCR ist ein Scan- und OCR-Programm, das die kostenlose Tesseract-OCR-Engine umfasst, die auch als Tesseract-GUI bezeichnet wird. Es enthält ein Windows-Installationsprogramm. Es ist sehr einfach zu bedienen und unterstützt mehrseitige TIFFs, Faxdokumente sowie die meisten Bildtypen einschließlich komprimierter Tiff-Dateien, die die Tesseract-Engine allein nicht lesen kann. Sie verfügt jetzt über Twain-Scanning.

pdfsandwich - pdf -> pdf konverter.

pdfsandwich ist ein Befehlszeilentool für OCR-gescannte Bücher oder Zeitschriften. Es kann das Seitenlayout auch für mehrspaltigen Text erkennen.

Im Wesentlichen ist pdfsandwich ein Wrapper-Skript, das die folgenden Binaries aufruft: convert, cuneiform, gs und hocr2pdf. Es ist dafür bekannt, auf Unix-Systemen zu laufen, und wurde unter Linux und MacOS X getestet. Es unterstützt die parallele Verarbeitung auf Multiprozessorsystemen.

Ich habe gerade pdfsandwich verwendet. Es funktioniert und ist kostenlos! :) Das wird sicherlich in meiner Doktorarbeit helfen, danke! Eddy vor 13 Jahren 0
Sieht aus wie pdfsandwich umgezogen ist? http://www.tobias-elze.de/pdfsandwich/ pioto vor 9 Jahren 0
@pioto: Es ist nicht ich, dass pdfsandwich oben hinzugefügt hat, aber ich habe den Link so repariert, wie Sie es vorgeschlagen haben. harrymc vor 9 Jahren 0
4
Richard Lucas

Wenn Sie über ein Google-Konto verfügen, enthält Google Text & Tabellen jetzt die Funktion, eine PDF-Datei hochzuladen und eine OCR-Anweisung durchzuführen.

Ich habe es selbst ausprobiert und es macht einen recht guten Eindruck bei einem zugegebenermaßen gut formatierten PDF.

Die Formatierung ist ziemlich zerstört, aber der Text scheint zu überleben.

2
Jukka Matilainen

Cuneiform + hocr2pdf + Ghostscript : Eine DIY-Open-Source-Lösung.

Ich habe eine Antwort veröffentlicht, in der eine Lösung beschrieben wird, die eine Version des jetzt offenen Cuneiform- OCR-Systems und hocr2pdf zusammen mit Ghostscript zum Zusammenstellen der PDF-Seiten umfasst.

Das war speziell für Linux, aber Sie können auch Cuneiform und Ghostscript für Windows erhalten. Ich bin mir jedoch nicht sicher, ob es sich um hocr2pdf oder ein gleichwertiges Produkt handelt.

1
jtbandes

Hier ist eine sehr seltsame Methode, bei der Google Index für Sie auf einer Website indiziert und OCR wird und dann abgerufen wird.

Ja, das habe ich auch gesehen ... seltsam in der Tat :) Ich könnte es am Ende tun ... vor 15 Jahren 0
0
DaveParillo

Installieren Sie Imagemagick . Öffnen Sie ein Cmd-Fenster oder ein Terminal:

convert myfile.pdf myfile-%02d.jpg 

Die Ausgabe wird 1 JPG-Datei für jede Seite in Ihrem PDF-Format, myfile-00.jpg, myfile-01.jpg usw. sein.

Übergeben Sie jedes Bild durch ein ocr-Programm. Ich habe nicht viel Erfahrung damit, aber es scheint eine Menge Entscheidungen zu geben.

Wandeln Sie jede Textseite zurück in pdf. Mit imagemagick können Sie dies noch einmal tun, aber es gibt auch andere Möglichkeiten:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf 
0
Xavierjazz

Ihre Anfrage scheint eine komplizierte Lösung für das Problem zu sein, obwohl ich das Problem möglicherweise nicht richtig verstehe. Jedenfalls:

Warum bekommen Sie nicht einen PDF-Writer, mit dem Sie die Daten direkt in die PDF-Seite eingeben können?

0
rlangner

Versuchen Sie es mit PDFCubed.com Es ist nichts zu installieren, es wird alles online erledigt. Sie können Ihre Dokumente zur Verarbeitung per Web, E-Mail oder Dropbox senden. Gescannte PDFs und TIFs werden in durchsuchbare Text-PDFs konvertiert und können dann über das Web, E-Mail oder Dropbox abgerufen werden.