Soweit ich weiß, haben Sie zwei Möglichkeiten:
Verwenden Sie ocrodjvu und pdfbeads wie hier beschrieben .
Die entsprechenden Befehle setzen voraus, dass Ihre DJVU-Datei aufgerufen wird
sample.djvu
und Sie Seite 10 einschließlich der Textebene in PDF konvertieren möchten:djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
pdfbeads -o pg10.pdf
Verwenden Sie Djview4, um die DJVU-Datei in PDF zu konvertieren, und verwenden Sie dann PDF-XChange Viewer, um OCR auszuführen. Es braucht Zeit, aber es ist verdammt gut (selbst bei zweispaltigen Dokumenten).
Grundsätzlich sollten die beiden Optionen auf Mac, Windows und Linux funktionieren. Für Option 2 benötigen Sie Wine unter Mac und Linux.
Ich habe die Option 1 mit einer einzelnen Seite ausprobiert und auf einem aktuellen Laptop mit einem Quad-Core-Prozessor und 8 GB RAM nicht in weniger als 10 Minuten beendet. YMMV.
Option 2 dauerte zwei Stunden für ein 50-seitiges Dokument auf einem aktuellen Desktop-Computer mit einem Quad-Core-Prozessor und 16 GB RAM. Die Ergebnisse sind jedoch beeindruckend.