dvju zu pdf einschließlich Textebene

804
nullUser

Versuch, djvu mit Textebene in PDF mit Textebene zu konvertieren. Ich habe alle Methoden in diesem Beitrag ausprobiert und keiner von ihnen behält die Textebene bei.

Welche Möglichkeiten habe ich?

1

1 Antwort auf die Frage

1
Marduk

Soweit ich weiß, haben Sie zwei Möglichkeiten:

  1. Verwenden Sie ocrodjvu und pdfbeads wie hier beschrieben .

    Die entsprechenden Befehle setzen voraus, dass Ihre DJVU-Datei aufgerufen wird sample.djvuund Sie Seite 10 einschließlich der Textebene in PDF konvertieren möchten:

    djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

    ddjvu -format=tiff -page=10 sample.djvu pg10.tif

    pdfbeads -o pg10.pdf

  2. Verwenden Sie Djview4, um die DJVU-Datei in PDF zu konvertieren, und verwenden Sie dann PDF-XChange Viewer, um OCR auszuführen. Es braucht Zeit, aber es ist verdammt gut (selbst bei zweispaltigen Dokumenten).

Grundsätzlich sollten die beiden Optionen auf Mac, Windows und Linux funktionieren. Für Option 2 benötigen Sie Wine unter Mac und Linux.

Ich habe die Option 1 mit einer einzelnen Seite ausprobiert und auf einem aktuellen Laptop mit einem Quad-Core-Prozessor und 8 GB RAM nicht in weniger als 10 Minuten beendet. YMMV.

Option 2 dauerte zwei Stunden für ein 50-seitiges Dokument auf einem aktuellen Desktop-Computer mit einem Quad-Core-Prozessor und 16 GB RAM. Die Ergebnisse sind jedoch beeindruckend.