Antworten in heruntergeladenen E-Mails entfernen (z. B. nicht aufeinander folgende doppelte Sätze aus der TXT-Datei)
Hallo Experten und Mitlerner!
Ich habe Dutzende von Textdateien, die monatliche Archive eines Listservs enthalten. Ich versuche, Antworten in Anführungszeichen zu entfernen bzw. zu löschen, sodass jede Nachricht nur einmal in allen Dateien angezeigt wird. Die meisten Benutzer der Liste verwenden kein Inline-Quoting, daher ist es hilfreich! Ich habe die Message ID, In-Reply-To und alle Header-Informationen, weiß aber, dass dies eine schwierige Aufgabe ist.
Die Sache wird dadurch kompliziert, dass viele E-Mail-Clients mit all ihren verschiedenen Systemen für den Umgang mit Antworten verwendet werden. Manchmal kommen die zitierten E-Mails mit ">" am Anfang der Zeile (was ich bereits entfernen konnte), einige fügen Absatzbrüche ein (scheinbar zufällig?), Andere verwenden "--- Original Message ---" oder " PersonZ schreibt / schreibt: "und natürlich gibt es kein Standardende" Ende ", um das Ende der Antwort zu markieren.
Ich habe seit Tagen nach einer Regex-Lösung und Testmöglichkeiten gesucht und nichts gefunden, was funktioniert, ohne die Zeilen zu sortieren (dh die Lösungen erfordern alle aufeinanderfolgende Duplikate). Hier ist ein Beispiel für eine Lösung, die wirklich nahe ist und die eine neue Zeile darstellt und diese sortiert - das Sortieren jedoch den Zweck des Projekts missachtet (semantische Analyse).
Finden Sie doppelte Ausdrücke - jedes Werkzeug oder Regex
Hier ist eine andere Lösung, die auch nahe ist, aber es muss vom Anfang einer Zeile aus gesucht werden. In meiner Situation funktioniert das nicht, weil verschiedene E-Mail-Clients Absätze innerhalb der Sätze einfügen.
https://stackoverflow.com/questions/32660532/remove-delete-all-duplicate-lines
Ich bin in einer Win10 x64-Desktopumgebung. Ich bin etwas neu in Regex. Ich habe einfache FNR (Suchen und Ersetzen von Codeplex, GrepWin und TextCrawler Free) verwendet, und ich bin offen für andere Softwarelösungen (oder Methoden). Bei Bedarf kann ich herausfinden, wie man mit xammp PHP-Befehle ausführt. Mit anderen Worten, der gesamte Prozess war eine Lernerfahrung, daher bin ich gerne weiter.
BEARBEITEN: Wenn Sie sich ein Beispiel für ein Mock-Up ansehen möchten - mit einer Mock-Regex, von der ich weiß, dass sie nicht funktioniert und nicht damit gerechnet hat - schauen Sie hier: https://regex101.com/r/FmAMH5/1
Entschuldigung für die Länge, aber ich wollte sofort die benötigten Informationen bereitstellen.
Vielen Dank, Jeremy
0 Antworten auf die Frage
Verwandte Probleme
-
10
So identifizieren Sie Betrügereien online
-
2
Wie verwende ich GMail als primären E-Mail-Client?
-
9
Was sind die Unterschiede zwischen POP3 und IMAP?
-
4
Verwenden Sie öffentliche Terminals, um sich mit Ihren persönlichen Zugangsdaten anzumelden
-
3
Wiederherstellen des Outlook-Symbols "Sie haben E-Mail"
-
14
Regex-Tool für Linux
-
2
Warum kommt vcard nicht in gmail an?
-
4
Was kann dazu führen, dass eine Outlook 2007-E-Mail beim Erstellen plötzlich nicht mehr bearbeitet w...
-
1
E-Mail-Benachrichtigungssymbol für bestimmte IMAP-Ordner
-
3
Wie kann ich das Senden von Links vom Browser zum Mail-Client unter Vista funktionieren lassen?