Wie kann man große TXT-Dateien von 10 GB + in 1 TXT-Datei zusammenführen und doppelte Zeilen aus dieser 1 TXT-Datei entfernen?

849
DeathRival

einfach meine frage ist anders, weil ich die dateien auch in eine zusammenführen muss, dann die doppelten zeilen aus der datei entfernen, die über 50GB txt sein wird. Ich habe große .txt-dateien von 10GB + dateien

Ich möchte sie in 1 .txt-Datei zusammenführen

Entfernen Sie dann alle doppelten Zeilen aus dieser 1 großen TXT-Datei, die etwa 50 GB oder 100 GB TXT-Datei enthält

Also, was kann mit dieser Art von großen Dateien umgehen und die Duplikate problemlos daraus entfernen?

Ich brauche den schnellsten Weg, weil ich bouth notepad ++ ausprobiert habe, und emeditor, sie arbeiten extrem schwer mit ihnen für das Zusammenführen oder Duplizieren und entfernen für immer

Ich habe 12 GB RAM

-1
Skripting wird wahrscheinlich am schnellsten sein. Beachten Sie jedoch, dass das Arbeiten mit Dateien, die so groß sind, bedeutet, dass dies für immer dauern wird. Daher ist die schnellste Methode eine Ansichtssache. Es wird mehr Zeit brauchen, um das schnellste zu finden, als nur, um es fertig zu stellen. LPChip vor 6 Jahren 0
das hat mir nicht geholfen und ich habe nichts davon verstanden, und meine Frage ist anders, da ich nach mehr großen Dateien suche, die mindestens 10 GB groß sind und bis zu 100 GB gehen können DeathRival vor 6 Jahren 0
ok Ich habe einen Weg gefunden, wie man doppelte Textzeilen aus Dateien mit mehr als 4 GB entfernt kann. Sie können meine Frage löschen, wenn Sie möchten, was ich gefunden habe: http://www.pilotedit.com/index.html Danke für die Veröffentlichung DeathRival vor 6 Jahren 0
Ramhound hat Sie bereits auf eine gute Antwort hingewiesen. Aber lassen Sie mich noch ein paar Dinge hinzufügen. Sie können mit dem Befehl copy mehrere Textdateien zusammenfügen. Öffnen Sie eine Eingabeaufforderung, wechseln Sie mit `cd` in den Ordner mit Ihren Textdateien und geben Sie dann` copy file1.txt + file2.txt combined_file.txt` ein. Dadurch werden beide Dateien zusammengefügt und benötigen etwa 3 Sekunden pro GB, wenn Sie an einer SSD arbeiten. Auf einer Festplatte ist es langsamer. SpiderPig vor 6 Jahren 0
Der im anderen Thread erwähnte `sort -u'-Befehl ist ebenfalls sehr schnell und kann 0,1 GB pro Sekunde verarbeiten. SpiderPig vor 6 Jahren 0

1 Antwort auf die Frage

1
chloesoe

Wenn Sie Linux verwenden, können Sie dies folgendermaßen tun:

cat aa.txt bb.txt | sort -u > newfile.txt 

Hier ist aa.txt die erste Textdatei und bb.txt die zweite.

sort -usortiert die Datei alphabetisch und mit -u(siehe auch hier https://stackoverflow.com/a/9377125/7311363 ) werden Duplikate entfernt. Mit > newfile.txtschreiben Sie das in newfile.txt.

Wenn Sie nicht mit Linux arbeiten, booten Sie mit einer LiveCD / DVD, mounten Sie Ihr Laufwerk und machen Sie es dann. ivanivan vor 6 Jahren 1