Wie konvertiert man ein DjVu in ein PDF, wobei die Form-Deduplizierung beibehalten wird?

1397
Tobia

Einer der (vielen) Vorteile des Komprimierens einer gescannten Seite mit DjVu besteht darin, dass Zeichen entdupliziert werden:

… Die bitonale Bildkomprimierung, die Wiederholungen von nahezu identischen Formen auf der Seite (z. B. Zeichen) nutzt, um Textbilder effizient zu komprimieren.

Leider ddvjuwirft die PDF-Exportfunktion von DjView (und dessen Befehlszeile ) diesen Vorteil weg und rendert ein einzelnes Bild für jede Seite. Das Ergebnis ist, dass die PDF-Datei normalerweise zweimal so groß ist wie die DjVu-Datei.

Da das PDF-Format mehr als nur in der Lage ist, ein Bild einmal zu speichern und auf einer Seite mehrmals anzuzeigen, habe ich mich gefragt, ob es Werkzeuge gibt, die eine optimierte PDF-Datei erzeugen und dabei die komprimierte DjVu-Struktur beibehalten.

2

2 Antworten auf die Frage

0
David

Wenn ich Ihr Problem richtig verstehe und es ein bisschen unklar ist, haben Sie eine Reihe von DjVu-Dateien, die Sie in PDF konvertieren möchten. Die DjVus, die Sie konvertieren möchten, wurden von einem Scanner generiert. Das zugrunde liegende Datenformat ist ein Bitmap / Raster / Bildgrafikformat.

Sie gehen fälschlicherweise von den Möglichkeiten des PDF-Formats ( Adobe Spec ) ( Wikipedia-Artikel ) aus. Das PDF-Format ist im Wesentlichen eine einfache Auszeichnungssprache, in der beschrieben wird, wie Text und Bilder auf einer Seite formatiert und platziert werden, grundlegende Vektorzeichnungen ausgeführt werden und dass auch Bilddaten darin kodiert werden können. Die Markierungssprache für Text und Seitenbeschreibung wird normalerweise mit den Kompressionsalgorithmen LZW oder Flate codiert. Die Bilddaten werden entweder als JPEG (Seite 39), TIFF (Seite 71) oder GIF (Seite 842) gespeichert.

Das PDF-Format verwendet keine neuartige Technologie wie das DjVu-Format ( DjVu Spec ) ( Wikipedia-Artikel ). Grundsätzlich scannt DjVu ein gesamtes Dokument und sucht nach Dingen, die es kombinieren kann, und hinterlässt einen Verweis darauf, wo jedes Objekt angezeigt wird. Das DjVu-Format ist in dieser Hinsicht viel schlauer als PDF. In gewissem Sinne ähnelt das DjVu-Format eher einem JPEG als einem PDF, wenn Sie die Funktionsweise des Algorithmus in einem gesamten mehrseitigen Dokument betrachten.

Ein mit einem Scanner erstelltes PDF-Dokument besteht nur aus einer Reihe von Seiten, die eine bestimmte Größe haben, wobei in jede Seite ein JPEG eingefügt wird. Sie können die PDF-Daten durch einen OCR- Prozess ( Optical Character Recognition ) ausführen und das Dokument in einem Textformat neu erstellen. Dies würde die Größe des PDF-Dokuments erheblich reduzieren. Für das PDF-Dokument ist keine OCR in das Format integriert. Einige Reader, z. B. der Adobe Reader, verfügen jedoch über eine integrierte OCR, mit der Sie in einem PDF-Dokument vom Typ JPEG suchen können.

Ich verstehe auch, dass Adobe Acrobat über OCR-Verarbeitungsfunktionen verfügt. Es gibt andere Programme, an die OmniPage erinnert, sowie eine Reihe von Open-Source-OCR- Systemen.

0
Richard

Ich kenne keine Möglichkeiten, Linux zu benutzen, aber mit Windows wird das DjVuToy-Programm genau das tun, was Sie wollen. Es hält die Ebenen getrennt und konvertiert sie einzeln von DjVu in ein PDF-Äquivalent. Die Dateigröße bleibt ungefähr gleich und das Dokument kann nun mit den meisten PDF-Readern angezeigt werden.

Genial! Genau das brauchte ich. Mit DjVuToy kann ich ein 27-MB-DjVu in ein 30-MB-PDF mit derselben Auflösung konvertieren, im Gegensatz zu dem 56-MB-PDF, das mit Standard-DjVu-Tools erstellt wurde. Dies ist für viele Benutzer ein großer Größenunterschied. Für jeden, der sich fragt, wo er ihn finden kann, gehen Sie auf die [Startseite des Autors] (http://www.cnblogs.com/stronghorse/), klicken Sie auf den klebrigen Blogeintrag und folgen Sie dem Link zum freigegebenen Ordner des [Autors] auf Baidu] (http://yun.baidu.com/s/1qXFS9dy). Ich habe es in einer VM geöffnet, weil dies meine Richtlinie mit seltsamer Software ist, aber es funktioniert gut und scheint echt zu sein. Tobia vor 6 Jahren 0