So entfernen Sie unsichtbare Zeichen aus Text, der aus PDF kopiert wurde

809
Dev Step

Wenn ich Text aus einer PDF-Datei kopiere, wird der Text korrekt angezeigt. Der Texteditor hält den Text jedoch für eine lange Sequenz.

So erscheint die Zeile im Notizblock:

Notizblock

Die einzige Möglichkeit, visuell zu sehen, dass es ein Problem mit dem Text gibt, besteht darin, den Text über Cmder in vi zu kopieren:

vi

Der Text erscheint in einem Hex-Editor wie folgt:

HxD

Ich habe versucht, mit Puretext das unsichtbare Zeichen beim Einfügen zu entfernen, aber das funktioniert nicht:

Puretext

Wenn Sie versuchen, das Zeichen in den Ersetzungsdialog eines Editors zu kopieren und durch ein Leerzeichen zu ersetzen, erhalten Sie keine Ergebnisse.

Der einzige Weg, den ich gefunden habe, besteht darin, jeden "Speicherplatz" manuell zu löschen und durch einen tatsächlichen Speicherplatz zu ersetzen.

Was ist die empfohlene Methode, um diese unsichtbaren Zeichen beim Einfügen oder beim Suchen und Ersetzen zu entfernen?

0
Haben Sie versucht, das Kopieren durch Einfügen zu übertreffen und die Funktion SUBSTITUTE zu verwenden? Oder verwenden Sie das Einfügen als Nur-Text in Chrome? Es ist auch schwierig, eine mögliche Lösung zu reproduzieren und zu testen, ohne dass Sie ein Beispiel-PDF angeben müssen Vylix vor 6 Jahren 1
@Vylix Ihre Antwort brachte mich auf die Idee, Chrome als PDF-Viewer anstelle meines aktuellen Viewers (SumatraPDF) zu verwenden. Das hat funktioniert! Wenn Sie Chrome als PDF-Viewer verwenden, werden die Problemzeichen nicht angezeigt. Daher ist kein Problem mehr zu lösen. Dev Step vor 6 Jahren 0
froh, eine hilfe zu sein. Kannst du das als Antwort schreiben? Vylix vor 6 Jahren 0
A0 wäre LF. Aus irgendeinem Grund kopiert SumatraPDF also Leerzeichen als Zeilenvorschub (in diesem Fall). Notepad verarbeitet LF nicht korrekt, da der erwartete erwartete Wert für einen Zeilenumbruch CRLF unter Windows ist. Ich glaube jedoch, dass einer der neuesten Windows 10-Builds einen Patch für Notepad enthalten sollte, der Unix-Style-Zeilenumbrüche berücksichtigt. Seth vor 6 Jahren 0
@Seth CRLF ist jedoch 0D 0A, nicht A0. A0 scheint ein sicherer Raum zu sein. Dev Step vor 6 Jahren 0
Sie sind richtig, 0A wäre LF. Ich denke, ich habe es zu schnell gelesen. Vielen Dank für den Hinweis auf meinen Fehler @DevStep Seth vor 6 Jahren 0

1 Antwort auf die Frage

0
Dev Step

Hier ist die einfache Lösung:

Der von mir verwendete PDF-Viewer ist SumatraPDF. Wenn ich Chrome als PDF-Viewer verwende, wird der Leerraum nicht in den kopierten Text eingefügt.

Der Chrome PDF-Viewer fügt den korrekten Platz in den kopierten Text ein.

Durch Ändern des PDF-Viewers, der für diese bestimmten PDFs verwendet wird, ist das Problem gelöst.

Ich habe dies mit verschiedenen PDFs getestet und das Problem besteht nur bei diesen bestimmten PDFs.