PDF hat den Text beim Kopieren und Einfügen beschädigt

106611
ngm

Ich versuche, Text aus einer PDF-Datei zu kopieren und einzufügen.

Wenn ich jedoch den ursprünglichen Text einfüge, ist dies ein riesiges Durcheinander von verstümmelten Zeichen. Der Text sieht wie folgt aus (dies ist nur ein kleiner Auszug):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!  (4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!  0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!  /'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!  1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!  65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!  &,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!  )*+*+, C<88,?>8513AG<5A14,  

Ich habe es in Adobe und Foxit PDF-Readern ausprobiert. Ich habe in Adobe Reader "Als Text speichern" erstellt und die resultierende Textdatei ist derselbe verstümmelte Text.

Irgendwelche Ideen, wie ich diesen Text nicht verstümmelt rausbringen kann? (Abgesehen von der manuellen Eingabe ... es ist eine Menge Text zu extrahieren.)

21
Ähnliche Frage: http://superuser.com/questions/119393/search-pdfs-mit-non-standard-character-encodings Hugh Allen vor 13 Jahren 0
Ich kann dieses Problem auch mit OS X zumindest ab 10.8.2 bestätigen. Ich habe ein wenig Zeit damit verbracht, die PDF-Dateistruktur durchzugehen, aber leider sehe ich keine Möglichkeit, den Schaden zu reparieren. "PreFlight" von Acrobat Pro meldet Probleme mit der Datei, wenn sie mit dem PDF / A-Standard abgeglichen wird, und der Inventarbericht zeigt die Zuordnung der Glyphen gegen eindeutig falsche Unicode-Zeichen. Ich habe einen Fehlerbericht mit Apple - ID 12655651 erstellt. Ich werde hier zurückkehren, wenn / wenn ich Updates bekomme. KenD vor 11 Jahren 0
Muss hilfreich sein http://superuser.com/a/481510/153937 Ankit vor 11 Jahren 0
Probieren Sie einige Screenreader-Dienstprogramme aus (die mit jpeg funktionieren, drucken Sie einen Bildschirm und los geht's) oder [hier ist ein anderer Weg] (http://blog.tcg.com/tcg/2005/12/copying_text_fr.html). (Nur eine "Vermutung", beißen Sie mich nicht dafür. Ich habe damals den ersten Weg genommen. Ich hoffe, es gibt praktischere Möglichkeiten). Shiki vor 14 Jahren 0

11 Antworten auf die Frage

10
acatalept

Die einfachste Möglichkeit, dies zu umgehen, besteht darin, die Datei in einer aktuellen Version von Google Chrome mit integriertem PDF-Lese-Plug-In zu öffnen . Dann können Sie die Suchfunktion von Chrome verwenden, um Text zu finden, und das Kopieren und Einfügen funktioniert ordnungsgemäß.

Ich möchte gerne den Kommentar von pipitas zu Shikis Antwort kommentieren, aber ich habe nicht die Creds :( Das Problem kann eine benutzerdefinierte Schriftkodierung und keine Verschlüsselung sein . Klicken Sie in Acrobat auf Datei -> Eigenschaften und dann auf die Registerkarte Schriftarten, um die Kodierung anzuzeigen und auf der Registerkarte "Sicherheit", ob es verschlüsselt ist.

In der Tat war die Codierung von benutzerdefinierten Schriften der Schuldige für mich. Chrome war jedoch nicht die Lösung. Ich habe das Problem teilweise gelöst, indem Ghostscript ein PDF von der PS regenerierte (ich hatte Glück, die PS-Quelle zu haben). Zeichengruppen, auf die LaTeX Ligaturen anwendet (z. B. ff, c, fi usw.), werden nicht im kopierten Text der PDF-Datei angezeigt, was beim Kopieren / Einfügen etwas Bearbeitung erfordert. Fuhrmanator vor 9 Jahren 0
Gleiches Problem mit Chrom JinSnow vor 8 Jahren 1
4
Daniel

Ich habe dieses Problem mit den von mir erstellten PDFs entdeckt und glaube, ich habe die Ursache des Problems ausfindig gemacht: Durch die Vorschau von Mac OS X können Sie die PDF-Dateigröße reduzieren.

Ich hatte einige Quarzfilter mit dem Colorsync-Dienstprogramm erstellt, um Bilder in PDF-Dateien zu komprimieren, um die Gesamtgröße der PDF-Dateien mit Bildern zu reduzieren. Wie hier beschrieben: http://www.macosxhints.com/article.php?story=20031106133852693

Ich habe festgestellt, dass ich Text aus der ursprünglichen (unkomprimierten) PDF-Datei problemlos kopieren und einfügen kann. Nachdem ich jedoch die PDF-Datei über einen von mir erstellten Filter zum Reduzieren der Dateigröße ausgeführt habe, wird die komprimierte PDF-Datei nicht eindeutig kopiert die Strings, die Sie gepostet haben).

Wenn Sie jedoch dieselbe Original-PDF-Datei über die Funktion "Dokument"> "Dateigröße reduzieren" von Adobe Acrobat Pro ausführen, kann die komprimierte PDF-Datei Text kopieren und einfügen.

Daher ist dies in Ihrem Fall nicht unbedingt hilfreich, da Sie davon ausgehen, dass Ihre PDF-Datei von einem anderen Ort erhalten wurde und Sie nicht zur Originalversion gelangen können, wenn sie tatsächlich komprimiert wurde. Aber das könnte die Erklärung sein - dass die Datei irgendwie beschädigt wurde, um die Dateigröße zu reduzieren.

Dies kann für Inhaltsersteller hilfreich sein, die ähnliche Probleme beim Kopieren und Einfügen von Text aus PDF-Dateien haben. Vorsicht: Verwenden Sie OS X Quartz-Filter, um Ihre PDF-Dateien zu verkleinern!

--edit-- Dieses Problem ist mir auch beim Kombinieren von PDFs mit Vorschau aufgefallen. Die beiden Quell-PDFs können zwar kopiert und eingefügt werden. Wenn Sie jedoch eine Seite aus einer Datei in die andere Datei ziehen und die kombinierte PDF-Datei speichern, kann der Text im kombinierten Dokument nicht kopiert / eingefügt werden. Dies sind zwei Dokumente, die beide gleichzeitig mit Filemaker Pro 11 auf dem Mac erstellt wurden. Ich kann mir nicht vorstellen, dass sie unterschiedliche Kodierungen oder ähnliches hätten.

3
Nick Olszanski

Es gibt einen anderen sehr einfachen Weg, um eine Problemumgehung zu erreichen :)

Drucken Sie das Dokument einfach mit dem CutePdf-, Adobe 2 Pdf-Drucker oder einem ähnlichen Drucker. Die letzte Zeile ist, dass Sie im PDF-Format drucken müssen.

In vielen Fällen wird das Problem leicht behoben.

2
user210118

SOLVED: (worked for me on Windows 8, Acrobat XI, Office 2010)

Option 1:

  1. Print from Acrobat using "Microsoft XPS Document Writer" Output is: "your file name.oxps"
  2. Open "...oxps" with XPS Viewer. *(see download link in comments below)
  3. Print to PDF (Acrobat PDF, or CutePDF), using the highest resolution (600 DPI).
  4. Open with Acrobat and use OCR (Searchable Image (Exact)) option.

BINGO!

Comments:

  • Using highest resolution and Searchable Image (exact) will save your text without loosing its clean appearance. Low resolution will make your text readable, but crappy looking.
  • Download Microsoft XPS (files): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • If you don't know what OCR is, or where to find Searchable Image (exact), or How to print using "Microsoft XPS Document Writer", PLEASE, Google it on your own, for your own best experiences.

*Download only if you do not have XPS installed.

Option 2:

Do similar, but save as image (png, tiff, ...), then you will have to combine all pages back in one "PDF" file.

Die Schritte 1, 2 und 3 scheinen ein langer Weg zu sein, wenn Sie einfach mit Schritt 3 fortfahren können. (ZB aus Ihrem PDF-Reader heraus). Kein Umweg über XPS. Hennes vor 11 Jahren 1
@Hennes Bei Schritt 4 wird der Fehler `Acrobat OCR kann auf dieser Seite nicht ausgeführt werden, da: Diese Seite enthält darstellbaren Text ' Fuhrmanator vor 9 Jahren 0
"Renderbarer Text" klingt als etwas, das noch gezeichnet (gerendert) werden muss. Möglicherweise schon gemacht und als OCR-fähige Bitmap gespeichert, wenn Sie über XPS gehen. Aber das ist nur eine Vermutung. Hennes vor 9 Jahren 0
1
Emil

Es besteht das Risiko, dass die Informationen überhaupt nicht abrufbar sind. PDF-Dokumente bestehen im Wesentlichen aus einem Dokument, einem einfachen Text und einem Bild. Wenn Sie aus dem Dokument kopieren und einfügen, markieren Sie den Text, während Sie das Bild betrachten. Was jedoch in die Zwischenablage kopiert wird, ist der entsprechende Teil des Textteils.

Je nach Erstellung des Dokuments können Qualität und Verfügbarkeit des Textteils sehr unterschiedlich sein. Wenn Sie ein Textverarbeitungsdokument im PDF-Format mit Acrobat, Word, einem PDF-Druckertreiber oder einer anderen Methode speichern, ist die Qualität normalerweise ausgezeichnet, da die Textdatei aus dem Text des Originals erstellt werden kann. Einige Sonderzeichen können verzerrt sein, normaler Text ist jedoch in Ordnung.

Wenn das Dokument aus einem gescannten Bild erstellt wird, wird der Textteil jedoch normalerweise durch OCR-Verarbeitung des Bildes erstellt, was ziemlich bedauerliche Ergebnisse erzeugen kann, insbesondere wenn das Original für diesen Zweck nicht optimal ist.

Ein fehlerhaftes Programm, das zum Erstellen der PDF-Datei verwendet wird, oder falsche Einstellungen können ebenfalls dazu führen, dass der Textteil völlig unleserlich wird. Ebenso können einige Arten der Verschlüsselung nach dem Erstellen der Datei ausgeführt werden.

Die unterste Zeile lautet: Wenn der Textteil des Dokuments wirklich schlecht ist, gibt es keine Möglichkeit, es besser zu machen. Am besten entfernen Sie den Text vollständig und lassen das Programm den OCR-Vorgang wiederholen. Ich denke, das ist in Acrobat möglich, aber ich bin mir nicht ganz sicher.

1
Kurt Pfeifle

Ein möglicher Grund dafür könnte sein, dass das Einbetten von Schriftarten in die PDF-Datei eine benutzerdefinierte Kodierung verwendete, die beim Kopieren von Text aus der PDF-Datei nicht korrekt angewendet wird.

Sie können verschiedene Methoden anwenden, um das manuelle Eingeben des gesamten Inhalts zu sparen.

  1. Haben Sie versucht, den Text mit einem der "pdftotext.exe" -Tools zu extrahieren, die im gesamten "Internet" heruntergeladen werden können? (Ich würde die in ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip enthaltene Version empfehlen ).
  2. Die neueste Version von Acrobat Reader enthält die Option "Als Text speichern ..." . Dies verwendet nicht "copy'n'paste" (was Ihnen den verstümmelten Text gab), verwendet jedoch wahrscheinlich die gleichen Softwareroutinen wie das Rendern des Texts auf dem Bildschirm und kann daher zu brauchbaren Ergebnissen führen.
  3. Wenn '2' funktioniert nicht, und wenn Sie Zugriff auf Acrobat Professional haben: Versuchen Sie, die PDF-Datei mithilfe eines der Distiller-Profile zum Einbetten von Schriftarten neu zu destillieren.
  4. Wenn '3.' funktioniert nicht, obwohl Sie Zugriff auf Acrobat Professional haben: Versuchen Sie, die PDF-Datei erneut zu destillieren, diesmal sollten Sie jedoch die Option "Als Bild drucken" verwenden (verfügbar über die Schaltfläche "Erweitert" in der unteren linken Ecke des Hauptausdrucks) Dialog). Stellen Sie sicher, dass Sie 600 dpi verwenden (dies kann jedoch eine große Datei erzeugen). Die resultierende PDF-Datei öffnen Sie dann erneut in Acrobat Pro. Wenden Sie nun den "OCR" -Algorithmus von Acrobat auf die Datei an, was zu eingebettetem Text führt (wird nicht für das Rendern auf dem Bildschirm im Reader verwendet, sondern zum Suchen und Hervorheben von Zeichenfolgen). Jetzt können Sie erneut versuchen, den Text aus dieser PDF-Datei mit einer der oben beschriebenen Methoden zu extrahieren.
Für mich die Verwendung von * Acrobat Pro XI * zum Nachdrucken als PDF - aber mit *** "Als Bild drucken" *** (bei 600 dpi) im ** Erweitert ... ** Button / Sub-Dialog aus Der Dialog ** Drucken ... ** - war der Trick. Dann kannst du * endlich das Ergebnis * richtig OCR machen. Keine der anderen Lösungen, die diese Seite erwähnte, funktionierte. Hinweis: Bei einem großen Dokument kann dies eine Weile dauern, und das Ergebnis kann sehr groß sein. Glenn Slayden vor 6 Jahren 0
@GlennSlayden: Ich bin froh, dass mein Ratschlag für Sie gewirkt hat ... Was fehlte daran, dass Sie dachten, es hätte noch keine positive Bewertung verdient? Kurt Pfeifle vor 6 Jahren 0
Ähm, ich habe positiv gestimmt. Es wird immer noch als '1' angezeigt. Meine einzige Beschwerde war, dass Ihre Antwort unten war und ich eine Weile brauchte, um sie zu finden (nicht Ihre Schuld ...). Glenn Slayden vor 6 Jahren 0
Ok, @GlennSlayden, dann muss diese Bestätigung schon lange her sein (lange vor deinem Kommentar oben). Kurt Pfeifle vor 6 Jahren 0
Nein, ich habe "12 Stunden" zur gleichen Zeit, zu der ich den Kommentar geschrieben habe, angehoben ... Ich sehe immer noch einen blauen Pfeil, der (ich glaube) bedeutet, dass meine Stimme (die einzige) Stimme ist, die derzeit registriert ist. Und ich erinnere mich daran, dass es "0" war, bevor ich gestern Abend gewählt habe. Glenn Slayden vor 6 Jahren 0
Sorry dann @GlennSlayden. Auf meiner Seite sieht es nicht so aus, als hätte diese Antwort in den letzten 3 Monaten positive Bewertungen erhalten ... Ja, Ihre Interpretation des blauen Pfeils stimmt. Kurt Pfeifle vor 6 Jahren 0
1
Reuti

Einer meiner Benutzer hat gerade das gleiche Problem gemeldet (PDF wurde mit Distiller für Windows erstellt), dass kopierter Text nur unleserlicher Text ist und er nicht in einem Dokument suchen kann. Ich habe es auf meinem Mac ausprobiert und kein Problem gefunden. Es stellte sich heraus, dass ich Apples Preview-Anwendung verwendete, während er Adobe Reader auf seinem Windows-Computer verwendete. Dann habe ich den Adobe Reader auf meinem Mac ausprobiert und den gleichen Effekt erzielt. Für mich sieht es so aus:

  • Adobe Reader sucht und sucht im gespeicherten Text.

  • Apples Preview kopiert und sucht nach dem Anwenden des Kodierungsvektors.

Ich kann das nicht mit Sicherheit sagen, aber es würde meine Beobachtung erklären. Es wäre in der Tat möglich, alle Arten von Kodierungen vorzunehmen, wenn Sie kombinierte / reduzierte Dateien speichern, wie in einem anderen Beitrag hier beschrieben: Mit der Vorschau können Sie den Text trotzdem wieder herausholen.

Zuerst dachte ich, es wäre logischer, den eingebetteten Zeichensatz als zusammenhängende Einträge zu kodieren, anstatt Löcher zu hinterlassen und die ursprüngliche Zeichenposition zu verwenden. Aber dann wurde mir klar, dass durch die Verwendung eines Kodierungsvektors für die Zeichensatz-Untergruppe mit Originaleinträgen häufig verwendete Zeichen weniger Bits auf 1 in ihrem Byte haben können und besser komprimiert werden können (dies kann die Entrophie der Gesamttext auf diese Weise).

1
Ankit

Beim Hochladen in Google-Dokumente und bei Verwendung der Option " Ansicht"> "Nur-HTML" wird Text zu 80% korrekt kopiert, wobei einige Leerzeichen fehlen.

Dieser Thread mit akzeptierter Antwort auf dasselbe Problem erläutert dies anhand eines Arbeitsbeispiels.

1
Gavin Miller

Lösung, die für mich funktioniert hat:

  • Laden Sie das Dokument in Google Drive / Docs hoch
  • Google wird es (ab 2013) als PDF importieren
  • Öffnen Sie die PDF-Ansicht und wählen Sie Datei > Öffnen mit > Google Text & Tabellen
  • Das Exportieren des Dokuments dauert etwa eine Minute

Die Ergebnisse waren nicht perfekt, aber ich hatte 80% des Weges dorthin und lieferte mir so viel Text, dass ich nicht alles neu schreiben musste!

1
Jhonrie

I have not tried the Google Docs option as it is still not supported in my office. However, by printing the file to "ScanSoft PDF Create!" from "Acrobat 9" (prints the entire file to image) and opening the printed file in "Nuance PDF Converter" (it prompted me if I want to make the image file searchable and editable, which I opted to), I was able to have a Word document I can easily copy and paste from. It's not perfect though with only around around 80-90% accuracy. But hey, you still have the original PDF file to compare with and offset those parts that just can't be fixed. Saves time from typing the whole thing. My 2c.