OCR, das generierten Text zu den ursprünglichen PDF- und DJVU-Dateien hinzufügt?

1791
Tim

Mein Betriebssystem ist Ubuntu.

Ich habe festgestellt, dass es einige Anwendungen gibt, die eine PDF- oder DJVU-Datei OCR erzeugen können und eine andere Textdatei erzeugen.

Ich habe mich jedoch gefragt, wie Sie den OCR-Text in die Original-PDF- oder Djvu-Dateien einfügen, um ihn in Original-PDF- oder Djvu-Dateien durch Text auswählbar zu machen, wie dies bei Adobe Acrobat unter Windows der Fall ist.

2

2 Antworten auf die Frage

2
meda beda

Für PDF gibt es pdfsandwich

pdfsandwich erzeugt "Sandwich" -OCR-PDF-Dateien, dh PDF-Dateien, die nur Bilder (keinen Text) enthalten, werden durch optische Zeichenerkennung (OCR) verarbeitet und der Text wird jeder Seite unsichtbar "hinter" den Bildern hinzugefügt.

Es ist ein Prozess in zwei Schritten:

  1. Fügen Sie OCR-Text zu einer neuen PDF-Datei hinzu (hier verwende ich die Tesseract-OCR-Engine mit französischer Sprache):

    pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf

  2. Dann konvertieren Sie das PDF / OCR in DjVu mit:

    pdf2djvu -o ./ocr.djvu ./ocr.pdf

2
Édouard Lopez

Ich habe ein Bash-Projekt auf Github gestartet, um die Konvertierung von PDF in PDF + OCR und DjvU + OCR zu unterstützen . Es basiert auf der Antwort von @ meda-beda und einigen Bearbeitungen, die ich hinzugefügt habe.

Es ist ein Wrapper für pdfSandwich und pdf2djvu.

Es wurde unter Ubuntu-12.10 entwickelt und getestet. Ich denke, es muss noch an der Option gearbeitet werden, die resultierende Datei zu optimieren (manchmal größer als das Original).