Was sind die möglichen Tools zum Konvertieren von PDF in EPUB?

1117
pixelastic

Ich weiß, dass ähnliche Fragen schon einmal gestellt wurden, aber bevor ich sie als Duplikat markiere, lassen Sie mich das erklären.

Ich habe gerade ein .pdfE-Book online gekauft und möchte es .epubstattdessen haben. Ich verwende calibre(v1.0.0) normalerweise für diese Art von Aufgaben mit großem Erfolg. Diesmal scheint ein großer Teil der Zeilen während der Konvertierung durcheinander zu geraten.

Jérôme disait aimer le rouge. Sa marotte FRQVLVWDLW VXUWRXW ¡ O#HQOHYHU 'ªJUDIHU OD dentelle était un geste qu'il effectuait avec la 

Selbst wenn Sie kein Französisch sprechen, werden Sie feststellen, dass die mittlere Zeile Müll ist. Und es ist nicht nur eine nutzlose Zeile, sie ersetzt den tatsächlichen Inhalt.

Der Kaliber-E-Book-Viewer zeigt den Anfangsbuchstaben pdfmit dem Müll an, während er mit meinem Standard-PDF-Viewer einwandfrei angezeigt wird. Ich habe versucht, die Umwandlung zu mobi, txt, mkd, ohne Erfolg.

Ich habe versucht pdftotext, das Online-Tool http://www.zamzar.com/ und bekam die gleiche Ausgabe.

Ich konvertiert dann die pdfzu .pbmDateien und versucht, laufen gocrund ocradauf sie. Die OCR-Ergebnisse waren recht interessant, aber nicht gut genug, um verwendet zu werden.

Jérôme _sȧit aimer le rouge. Sa marotte consistait surTout à l'enlever. Dégrafer la dentelle était un geste qu_l effectuait avec la 

Hätten Sie eine Idee von anderen Tools, die beim Prozess helfen könnten, oder Optionen zur Feinabstimmung von Kaliber- oder OCR-Programmen?

Hinweis: Ich verwende Ubuntu 13.10.

1
Sieht aus wie das PDF verschlüsselte Zeilen enthält. Wahrscheinlich als Kopierschutz. Die PDF-Datei enthält außerdem ein Makro, das die Zeilen beim Anzeigen automatisch entschlüsselt, sofern Sie einen Reader verwenden, der die eingebetteten Makros verarbeiten kann. Calibre, Zamzar und die meisten anderen Programme verwenden dieselbe Methode wie pdftotext, um den reinen Text zu extrahieren, ohne das Entschlüsselungsmakro zu durchlaufen. Vielleicht haben Sie etwas Glück, wenn Sie die PDF-Datei in Adobe Reader laden (ich weiß, dieses Stück ***) und als HTML exportieren. Von dort kann man zu epub gehen. Ich würde auch den PDF-Import von LibreOffice versuchen. Tonny vor 10 Jahren 1
@Tonny Danke für den Zeiger. Ich habe LibreOffice ausprobiert, aber der Text ist immer noch durcheinander. Ich werde versuchen, einen Windows-Computer in die Hände zu bekommen, um den offiziellen Adobe-Reader zu testen. pixelastic vor 10 Jahren 0
Ein Vorschlag meines Schwagers: Versuchen Sie, Ghostscript zu verwenden, um die PDF-Datei von einem Layout in ein anderes zu konvertieren (z. B. A4-Seiten in A3 oder ähnliches). Die Konvertierung macht möglicherweise die Verschlüsselung rückgängig (wenn Sie Glück haben). Tonny vor 10 Jahren 0
@Tonny Ich habe versucht, in Ghostscript zu konvertieren, aber es enthält immer noch den Mülltext in der endgültigen Ausgabe. Ich werde auch versuchen zu sehen, ob ich mit `pdfjs` eine gute Ausgabe machen kann. pixelastic vor 10 Jahren 0

0 Antworten auf die Frage