Wie konvertiert man eine persische PDF-Datei in das Microsoft Word-Format?

6653
Mehdi

Ich habe eine pdf-Datei mit persischer Schrift und ein Rechts-nach-Links- Format . Da Persian das UTF-8-Format verwendet, kann ich es nicht in einen einfachen Text in Microsoft Word konvertieren. Außerdem kann ich den Text nicht kopieren und nicht lesbare Zeichen einfügen. Ich habe eine Menge Software wie unipdf und e-Pdf Converter ausprobiert, aber nach der Konvertierung werden die Zeichen immer noch nicht richtig angezeigt. Ich habe sogar OCR ausprobiert, aber wieder trat dasselbe Problem auf. Das PDF hat keine Passwörter oder Einschränkungen.

Hat jemand noch andere Ideen?

Edit: Ich habe tatsächlich versucht, eine Datei in MS Word zu erstellen und in eine PDF-Datei zu konvertieren, danach hatte ich wieder das gleiche Problem mit der PDF-Datei (selbst die Kodierung war bekannt).

1
Microsoft Word unterstützt das UTF-8-Format. Es unterstützt auch Sprachen von rechts nach links. Warum kann man es nicht genau in ein Word-Dokument konvertieren? Ramhound vor 9 Jahren 2
Hey danke für deine Rücksicht. Die Quelle meiner Datei ist PDF, daher weiß ich nicht, was genau passiert, wenn ich versuche, sie in Microsoft Word zu kopieren und einzufügen, aber sie zeigt nicht den richtigen Charakter. Das gleiche passiert, wenn ich versuche, es mit Tools von Drittanbietern zu konvertieren. Mehdi vor 9 Jahren 0
mögliches Duplikat von [Ausschneiden und Einfügen vietnamesischer Zeichen aus einem PDF] (http://superuser.com/questions/380383/cutting-pasting-vietnamese-characters-from-a-pdf) RedGrittyBrick vor 9 Jahren 1
@RedGrittyBrick Ich habe Ihre Antwort gelesen. In meinem Fall habe ich jedoch tatsächlich versucht, eine Datei in MS Word zu erstellen und in ein PDF-Format zu konvertieren. Danach hatte ich wieder das gleiche Problem mit der PDF-Datei (selbst die Kodierung war bekannt) - Danke Mehdi vor 9 Jahren 0
Wie wurde das PDF erstellt? Elektronisch oder gescannt und Sie hoffen auf die Übernahme von OCR? Austin T French vor 9 Jahren 0
Können Sie ein Beispiel-PDF-Dokument erstellen und an einem öffentlichen Ort veröffentlichen, damit die Benutzer es über eine URL von dort herunterladen können? RedGrittyBrick vor 9 Jahren 0
@AthomSfere Das PDF wurde automatisch erstellt, indem eine MS Word-Datei in ein PDF umgewandelt wurde. Vielen Dank Mehdi vor 9 Jahren 0
@RedGrittyBrick Hier ist ein Beispiel von PDF https://drive.google.com/open?id=0BzLHaKpzBvMNZXZrd1NURWhIS0F4OGkzVldSRm1ZYXJXbHNF&authuser=0 Mehdi vor 9 Jahren 0
Ich kann mit dem integrierten PDF-Viewer von Chrome Text ausschneiden und einfügen. Die Zeichen sind nicht offensichtlich unübersichtlich, die Richtung des Texts ist jedoch meistens umgekehrt. Ich lese kein Persisch und kann daher nicht sagen, ob die tatsächlichen Zeichen in Ordnung sind - aber sie sehen oberflächlich aus. Bei einem anderen PDF-Viewer besteht das Hauptproblem darin, zusammenhängenden Text auszuwählen. Leider glaube ich nicht, dass ich bei Ihrem Problem helfen kann. RedGrittyBrick vor 9 Jahren 0
@RedGrittyBrick Vielen Dank für Ihre Rücksicht. Dieses Problem besteht bei nicht-englischsprachigen PDF-Dateien und ich weiß nicht, warum! Sie haben mir jedoch schon geholfen, ich kann nicht Teil für Teil kopieren und einfügen! der lange Weg aber der einzige Weg! Mehdi vor 9 Jahren 0

3 Antworten auf die Frage

1
einpoklum

Sehr oft werden PDF-Dateien in nicht-lateinischen Skripten (insbesondere RTL-Skripte wie Arabisch, Hebräisch und Farsi) von einer Software erzeugt, die den Text auf LTR-Ebene oder Wort-Fragment-Ebene darstellt oder nur die richtigen Glyphen dazu bringt Anzeige, aber Sie erhalten Kauderwelsch für den 'logischen' Text. In diesen Fällen ist sehr wenig zu tun, außer einen benutzerdefinierten Rückwandler zu schreiben, der praktisch keine Option darstellt.

Wenn Sie jedoch herausfinden können, wie die Datei erstellt wird - was häufig in den Metadaten angegeben wird, auf die mit herkömmlichen PDF-Readern zugegriffen werden kann - gibt es möglicherweise eine Option, die Datei in der Anwendung zu öffnen, in der sie erstellt wurde, oder Sie können zumindest eine solche erstellen Ihre Frage genauer.

0
ML2

Ich habe gerade daran gearbeitet, ein pdf in einen editierbaren persischen Text umzuwandeln. Die beste Lösung, die ich gefunden habe, ist, Google Doc wie folgt zu verwenden.

  1. Sie sollten PDF-Seiten in Bilder konvertieren. Dazu können Sie den Adobe Acrobat Reader verwenden (nicht den Adobe Reader, der kostenlos ist) oder in Linux. Ich benutze GIMP, um ein PDF zu öffnen, und dann wähle ich aus, dass jede Seite in einem separaten Bild geöffnet wird. Es ist deine eigene Entscheidung.
  2. Laden Sie die Bilddateien zu Google Drive hoch
  3. Gehen Sie zu Google Drive und klicken Sie mit der rechten Maustaste auf jedes Bild. Klicken Sie dann auf open with google doc
  4. Warten Sie, bis Google Doc einen bearbeitbaren Text aus Ihrem Bild öffnet
  5. Kopieren Sie es in Word

Ich weiß nicht, ob es eine automatisierte Methode gibt. Ich hoffe, ich habe Zeit, um einen Antrag zu stellen, um dies automatisch durchzuführen.

0
saeed ghasemi

Ich hatte das gleiche Problem beim Konvertieren von PDF-Dateien in Word. Nach dem Kopieren / Einfügen in Word änderte sich die Formatierung und verursachte Probleme. Ich habe mehrere Online-Konverter ausprobiert, die aber auch fehlgeschlagen sind.
Die einzige Methode, die funktioniert hat, war wie folgt:

  1. Öffnen Sie die PDF-Datei mit dem Adobe Acrobat Reader, und wählen Sie dann im Dateimenü die Option Drucken. Wählen Sie aus den Druckernamen Adobe Acrobat aus. Ja, Sie erstellen ein pdf aus einem pdf!
  2. Öffnen Sie die neue PDF-Datei mit Google Chrome (ziehen Sie die Datei in Chrome und legen Sie sie dort ab).
  3. Markieren Sie nun einfach den gesamten Text (Strg + A) und kopieren Sie ihn in eine leere Word-Datei.