Für PDF gibt es pdfsandwich
pdfsandwich erzeugt "Sandwich" -OCR-PDF-Dateien, dh PDF-Dateien, die nur Bilder (keinen Text) enthalten, werden durch optische Zeichenerkennung (OCR) verarbeitet und der Text wird jeder Seite unsichtbar "hinter" den Bildern hinzugefügt.
Es ist ein Prozess in zwei Schritten:
Fügen Sie OCR-Text zu einer neuen PDF-Datei hinzu (hier verwende ich die Tesseract-OCR-Engine mit französischer Sprache):
pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf
Dann konvertieren Sie das PDF / OCR in DjVu mit:
pdf2djvu -o ./ocr.djvu ./ocr.pdf