Regex vom Teilstring bis zum ersten Auftreten eines anderen Teilstrings

Question

regex
perl

Regex vom Teilstring bis zum ersten Auftreten eines anderen Teilstrings

801

Robert Koszegi 2017-08-24 в 13:26

Ich muss die textClipping-Dateien aus einer Liste entfernen. Leider wurden einige Dateien furchtbar benannt und enthalten einen Wagenrücklauf. Ich brauche den Perl-Regex, damit jeder Pfad von /Volumes/bis .textClippingeinschließlich Newline passt.

/Volumes/.*\.textClippingerfasst die ersten beiden .textClippingDateien, nicht jedoch die dritte mit dem Zeilenumbruch. Alternativ konnte ich alles vom ersten /Volumes/bis zum letzten Moment erfassen, was .textClippingaber auch nicht hilfreich ist.

Irgendwelche Ideen? Vielen Dank.

/Volumes/folder/folder/file.doc /Volumes/folder/folder/file.textClipping /Volumes/folder/folder/file.doc /Volumes/folder/folder/file.textClipping /Volumes/folder/folder/fi   le.textClipping /Volumes/folder/folder/file.doc

0

3 Antworten auf die Frage

0

Toto 2017-08-24 в 15:06

Du könntest es tun:

perl -0777 -ae '@files = m~(/Volumes/(?:[^/\r\n]+/)+?[^/]+?\.textClipping\R)~g;print scalar(@files)," files found:\n",@files' file.txt

Woher:

-0777 Lesen Sie die Datei im "slurp" -Modus
-a Autosplit-Modus

Regex:

 ~ : regex delimiter ( : start group 1 /Volumes/ : literally  (?: : start non capture group [^/\r\n]+ : 1 or more any character that is not a slash or line break / : slash )+? : group repeated 1 or more times, not greedy (ie. the path) [^/]+? : not a slash, 1 or more times, not greedy (ie. the filename) \.textClipping : a dot with the extension \R : any kind of linebreak ) : end group 1 ~g : regex delimiter, global flag

Ausgabe:

3 files found: /Volumes/folder/folder/file.textClipping /Volumes/folder/folder/file.textClipping /Volumes/folder/folder/fi  le.textClipping

Wenn Sie alle Dateien behalten möchten, die nicht mit enden .textClipping

perl -0777 -i.orig -ape 's~(/Volumes/(?:[^/\r\n]+/)+?[^/]+?\.textClipping\R)~~g' file.txt

Die Eingabedatei -iwird direkt geändert (Option ), die Originaldatei wird mit der Erweiterung gesichert.orig

cat file.txt /Volumes/folder/folder/file.doc /Volumes/folder/folder/file.doc /Volumes/folder/folder/file.doc

0

Robert Koszegi 2017-08-24 в 15:55

Ich schätze die Antworten sehr. Vielen Dank für Ihre Zeit. Ich entschuldige mich, wenn meine Frage nicht klar war. Die Antwort stellte sich als einfacher heraus, als ich zunächst dachte.

Der Wagenrücklauf oder die neue Zeile im Dateinamen lautet wie folgt: "file (CR) name.textClipping". Textclipping-Dateien geben einfach den darin enthaltenen Text als Namen der Datei an, was in meinem Fall ein paar Zeilenumbrüche ist. Schmerz in den Arsch!

Das funktioniert trotzdem : /Volumes/.*\n*.textClipping/g

Dies entspricht Vorkommensfolgen, die mit "/ Volumes /" beginnen und mit ".textClipping" enden, wobei alles dazwischen steht.

Nochmals vielen Dank für Ihre Vorschläge.

Bist du sicher, dass das funktioniert, wie du willst? Auf gegebene Beispieldatei anwenden, gibt es für die zweite Übereinstimmung 2 Dateien (Zeile 3 mit Zeile 4 verketten). Toto vor 7 Jahren 0

Accepted Answer · 2017-08-24 13:54:44

Ich konnte Ihrer Frage nicht sagen, wo in den Dateinamen die Zeilenumbrüche stehen könnten, also gehe ich davon aus, dass sie irgendwo sein könnten. Dies macht das Matching schwieriger.

Die einfachste Lösung besteht darin, alle Zeilenumbrüche aus der Eingabe zu entfernen, bevor unerwünschte Dateinamen entfernt werden.

Ich habe dieses Skript gemacht:

#!/usr/bin/perl  $filename = "filelist.txt";  open(FILE, $filename) or die "Cant open $filename\n";   # Undefine the record separator, so that the entire file will be read into a single string # instead of an array with records separated by newlines local $/ = undef;  $lines = <FILE>;  close(FILE);  print "Before\n------\n";  print $lines;   # Remove all newlines  $lines =~ s/\n+//g;  # Remove all "textClipping" files $lines =~ s/\/Volumes\/[^ ]*.textClipping//g;  # Turn multiple consecutive spaces into single spaces $lines =~ s/ +/ /g;   print "After\n-----\n";  print "$lines\n";

und fütterte es als filelist.txt:

/Volumes/folder/folder/file.doc /Volumes/folder/folder/file.textClipping /Volumes/folder/folder/file.doc /Volumes/folder/folder/file.textClipping /Volumes/folder/folder/fi le.textClipping /Volumes/folder/folder/file.doc

was gab diese Ausgabe:

Before ------ /Volumes/folder/folder/file.doc /Volumes/folder/folder/file.textClipping /Volumes/folder/folder/file.doc /Volumes/folder/folder/file.textClipping /Volumes/folder/folder/fi le.textClipping /Volumes/folder/folder/file.doc After ----- /Volumes/folder/folder/file.doc /Volumes/folder/folder/file.doc /Volumes/folder/folder/file.doc

Zum Schluss denke ich, dass Sie mit dem Muster, das Sie in Ihrer Frage vorschlagen, sehr vorsichtig sein sollten:

/Volumes/.*.textClipping

schon seit . erfasst jedes Zeichen außer einem Zeilenumbruch, jedoch auch ein Leerzeichen. Ich habe dieses Muster mit dieser Eingabe ausgeführt, wie von Ihrer Frage vorgeschlagen:

/Volumes/folder/folder/file.doc /Volumes/folder/folder/file.textClipping /Volumes/folder/folder/file.doc /Volumes/folder/folder/file.textClipping /Volumes/folder/folder/fi le.textClipping /Volumes/folder/folder/file.doc

und bekam diese Ausgabe, von der ich glaube, dass sie nicht das ist, was Sie wollen:

/Volumes/folder/folder/fi le.textClipping /Volumes/folder/folder/file.doc

Bearbeiten : Sie haben kürzlich eine Antwort auf Ihre eigene Frage gepostet, in der Sie erneut in diese Falle geraten, aber ich habe nicht genug Ansehen, um einen Kommentar dazu zu posten. Anstelle von /Volumes/.*\n*.textClipping/g(die mit Leerzeichen übereinstimmt und daher möglicherweise mehr als ein Dateiname gleichzeitig entfernt wird), empfehle ich dringend, Folgendes zu berücksichtigen /Volumes/[^ ]*\n*.textClipping/g: das [^ ]*wird alles außer Leerzeichen entsprechen.

Regex vom Teilstring bis zum ersten Auftreten eines anderen Teilstrings

3 Antworten auf die Frage

Verwandte Probleme