Ich denke, das Problem hier ist, dass Excel ein Limit von 1.048.576 Zeilen hat und Ihr Datensatz 13 Millionen Einträge enthält. Jeder Eintrag sollte in einer separaten Zeile stehen.
Wenn Sie sich unter Windows befinden, können Sie ein Programm namens NotePad ++ verwenden, um Duplikate zu finden und zu entfernen. Die Antwort auf StackOverflow schlägt vor, entweder einen regulären Ausdruck oder ein Plugin zu verwenden.
Ich würde die Option für reguläre Ausdrücke verwenden. Nachfolgend finden Sie eine kurze Zusammenfassung der SO-Antwort.
- Stellen Sie sicher, dass sich jeder Eintrag in einer einzelnen Zeile befindet
- Öffnen Sie das Suchen und Ersetzen
- Wählen Sie den regulären Ausdrucksmodus
- Geben Sie den Ausdruck
^(.*?)$\s+?^(?=.*^\1$)
in das Suchfeld ein - Lassen Sie die Ersatzbox leer
- Klicken Sie auf Alle ersetzen
Wenn es sich bei diesen Daten um einen Export aus einer Datenbank handelt, sollten Sie in Betracht ziehen, Ihre SQL-Anweisung vor dem Export zu ändern, indem Sie DISTINCT
nach dem Hinzufügen hinzufügen SELECT
. Siehe hier für ein Beispiel.