Wenn ich Ihr Problem richtig verstehe und es ein bisschen unklar ist, haben Sie eine Reihe von DjVu-Dateien, die Sie in PDF konvertieren möchten. Die DjVus, die Sie konvertieren möchten, wurden von einem Scanner generiert. Das zugrunde liegende Datenformat ist ein Bitmap / Raster / Bildgrafikformat.
Sie gehen fälschlicherweise von den Möglichkeiten des PDF-Formats ( Adobe Spec ) ( Wikipedia-Artikel ) aus. Das PDF-Format ist im Wesentlichen eine einfache Auszeichnungssprache, in der beschrieben wird, wie Text und Bilder auf einer Seite formatiert und platziert werden, grundlegende Vektorzeichnungen ausgeführt werden und dass auch Bilddaten darin kodiert werden können. Die Markierungssprache für Text und Seitenbeschreibung wird normalerweise mit den Kompressionsalgorithmen LZW oder Flate codiert. Die Bilddaten werden entweder als JPEG (Seite 39), TIFF (Seite 71) oder GIF (Seite 842) gespeichert.
Das PDF-Format verwendet keine neuartige Technologie wie das DjVu-Format ( DjVu Spec ) ( Wikipedia-Artikel ). Grundsätzlich scannt DjVu ein gesamtes Dokument und sucht nach Dingen, die es kombinieren kann, und hinterlässt einen Verweis darauf, wo jedes Objekt angezeigt wird. Das DjVu-Format ist in dieser Hinsicht viel schlauer als PDF. In gewissem Sinne ähnelt das DjVu-Format eher einem JPEG als einem PDF, wenn Sie die Funktionsweise des Algorithmus in einem gesamten mehrseitigen Dokument betrachten.
Ein mit einem Scanner erstelltes PDF-Dokument besteht nur aus einer Reihe von Seiten, die eine bestimmte Größe haben, wobei in jede Seite ein JPEG eingefügt wird. Sie können die PDF-Daten durch einen OCR- Prozess ( Optical Character Recognition ) ausführen und das Dokument in einem Textformat neu erstellen. Dies würde die Größe des PDF-Dokuments erheblich reduzieren. Für das PDF-Dokument ist keine OCR in das Format integriert. Einige Reader, z. B. der Adobe Reader, verfügen jedoch über eine integrierte OCR, mit der Sie in einem PDF-Dokument vom Typ JPEG suchen können.
Ich verstehe auch, dass Adobe Acrobat über OCR-Verarbeitungsfunktionen verfügt. Es gibt andere Programme, an die OmniPage erinnert, sowie eine Reihe von Open-Source-OCR- Systemen.