Windows benötigt Hilfe für die Bearbeitung großer Textdateien, um Duplikate zu entfernen - kombinieren Sie die Textarbeit auf 50 GB +

690
DeathRival

Ich habe Windows 2012
32 GB RAM I7 CPU Prossesor 1TB SSHD

Ich habe TXT-Dateien von Wortlisten in Zeilen, die TXT-Dateien von 2 GB bis 50 GB beginnen

Welche Werkzeuge oder Programme können in dieser großen Größe / Zeilen funktionieren, um alle Dateien zu einer Datei .txt zu kombinieren, dann in dieser 1 Datei .txt zu arbeiten, die nach allen kombinierten / zusammengeführten Dateien 100 GB sein kann

doppelte Zeilen mit CauseSinstive entfernen und nicht abstürzen oder einfrieren oder verzögern? Ich weiß, ich habe eine Frage gestellt, die so aussieht, aber ich habe nichts einfaches dazu bekommen

Helfen Sie mir, ich verstehe nicht so viel in den Cmd-Codes, die von den Benutzern verwendet werden. Wenn irgendjemand mir von einem Programm erzählt, kann das wirklich ohne Probleme oder mit einem Cmd-Weg mit einfacher Erklärung für Anfänger

Wie das, was ich durch Schritte tun muss und wie ich es am Ende tun muss, brauche ich etwas, stürzt nicht meinen PC ab oder ist sehr langsam

Ich habe versucht, emeditor bisher nicht in 10GB-Datei arbeiten kann und es ist super langsam. Bitte helfen Sie mir

1
Sie sollten diese Aufgabe mit einer Programmiersprache und nicht mit der Hand erledigen. IQV vor 6 Jahren 2
Es ist unrealistisch, wenn Sie Ihre Systemspezifikationen angeben, um Textdateien mit 50 GB in einem Editor zu öffnen. Sie können 50-GB-Textdateien mit Ihrem eigenen Programm parsen, sofern Sie nicht versuchen, dies in einem riesigen Blob zu tun. Ramhound vor 6 Jahren 0
Möglicherweise müssen Sie einige Dateien (* cough * 50GB) für die Arbeit mit ihnen ernsthaft verkleinern, auch wenn Sie sie später erneut kombinieren. Diese Frage enthielt einige Vorschläge für eine ähnliche Aufgabe - https://stackoverflow.com/q/25249516/3395469 Anaksunaman vor 6 Jahren 0
@DeathRival: Siehe meine Bearbeitung unten. Ich habe eine Schritt-für-Schritt-Anleitung hinzugefügt, um Ihr Problem zu lösen. Ich habe es nicht mit diesen großen Textdateien getestet, also probieren Sie es aus chloesoe vor 6 Jahren 0

2 Antworten auf die Frage

1
Joe6pack

Das beste Werkzeug zum Verwalten der großen Textliste für Windows ist: Unified List Manager (ULM)

ULM

Du kannst Duplikate und viele andere nützliche Dinge sortieren, zusammenführen, teilen, entfernen.

0
chloesoe

Sie haben das hier schon gefragt: Wie kann man große TXT-Dateien mit mehr als 10 GB in eine TXT-Datei zusammenführen und doppelte Zeilen aus dieser 1 TXT-Datei entfernen? .

Ich würde trotzdem empfehlen, ein Linux herunterzuladen (Ubuntu oder Mint oder was auch immer) und es auf CD brennen oder ein bootfähiges USB-Laufwerk erstellen und dann ohne Installation starten. Dann könnten Sie tun, was ich hier empfohlen habe https://superuser.com/a/1250792/715210

Oder Sie installieren die Windows 10 Linux Bash Shell: https://www.howtogeek.com/249966/how-to-install-and-use-the-linux-bash-shell-on-windows-10/
Ich denke, die Befehle Hier sollte https://superuser.com/a/1250792/715210 funktionieren, sie sind wirklich grundlegende Linux-Befehle.

Edit: Ich habe es mit Win10 Pro getestet (Sie haben Ihr Betriebssystem nicht erwähnt). Schritt für Schritt zur Installation von Windows Linux Bash und Zusammenführen der Dateien aa.txt und bb.txt in newfile.txt mit Beseitigung von Duplikaten (vorausgesetzt, Ihre Dateien befinden sich in C: \ temp):

  1. Win+ ium Einstellungen zu öffnen
  2. Update & Sicherheit -> für Entwickler: Wählen Sie den Entwicklermodus
    • Der Entwicklermodus wird installiert
  3. Win+ R-> "bedienfeld" -> eingeben
  4. Programme und Funktionen auf der linken Seite "Programme" oder "Windows-Funktion aktivieren"
    • Wählen Sie "Windows-Subsystem für Linux Beta"
  5. Neustart
  6. Drücken Sie, Winsuchen Sie dann nach "bash" und öffnen Sie
  7. Es gibt einige Eingabeaufforderungen, die Sie mit "Y" beantworten sollten, und Sie werden aufgefordert, einen Benutzernamen mit Kennwort zu definieren
    • bash ist jetzt installiert.
    • Ihr Laufwerk C: ist jetzt unter / mnt / c verfügbar.
  8. Schreiben Sie cd /mnt/c/temp/(oder Ihren Pfad) und drücken Sie die Eingabetaste
  9. schreiben cat aa.txt bb.txt | sort -u > newfile.txt
    • Wenn das nicht funktioniert, können Sie versuchen, die Dateien zuerst mit einer Datei zusammenzuführen und cat aa.txt bb.txt > tempfile.txtdanach den Befehl sortierensort -u tempfile.txt > newfile.txt