Best Practices für die Datenübertragung zwischen Hadoop-Clustern
533
tbenz9
Situation: Ich muss etwa 100 TB von einem alten Hadoop-Cluster auf einen neuen Hadoop-Cluster übertragen. Die beiden Cluster verfügen über eine direkte 1-GbE-Verbindung vom Namensknoten in jedem Cluster. Die Datenknoten sind nicht verbunden.
Was ich probiert habe:
- Distcp: Dies funktioniert nicht, da die alten und neuen Datanodes nicht miteinander verbunden sind. Dies würde das Verbindungszeitlimit für jeden Mapreduce-Job anzeigen.
- hdfs dfs -cp: Das funktioniert bisher ziemlich gut, verlangsamt sich jedoch und endet nach einigen Stunden. Es unterstützt auch keine Komprimierung oder gute Neustartfähigkeit.
Was mich interessiert:
- Da meine Verbindung zwischen Cluster 1 und Cluster 2 der Engpass ist, bin ich daran interessiert, ein Tool zu finden, mit dem ich die Daten in Cluster 1 komprimieren kann, indem ich sie mit sehr geringem Aufwand (netcat vielleicht?) Über das Kabel schicke und sie in Cluster 2 dekomprimiere Rsync wäre perfekt, aber ich bin mir nicht sicher, wie man das zwischen zwei Hadoop-Clustern verwendet.
- Andere Empfehlungen, mit denen ich nicht vertraut bin.
Meine Frage:
- Welche Tools oder Skripts kann ich verwenden, um Daten zwischen Cluster 1 und Cluster 2 effizient zu übertragen, wenn meine Einschränkungen aufgeführt sind?
0 Antworten auf die Frage
Verwandte Probleme
-
9
Was ist der Unterschied zwischen den Befehlen "su -s" und "sudo -s"?
-
4
Gutes freies Ubuntu Server-VMWare-Image benötigt
-
4
Was sind die Unterschiede zwischen den großen Linux-Distributionen? Werde ich es merken
-
2
Begrenzung der CPU-Auslastung für Flash in Firefox?
-
2
Wie kann ich mein Mikrofon unter Debian GNOME zum Laufen bringen?
-
2
Conky-Setups - Beispiele / Ideen?
-
3
Was sind die Unterschiede zwischen Linux Window Managern?
-
2
ThunderBird / Lichtsynchronisation mit SE k770i
-
4
Linux-Dateisystem
-
6
Vollbild-Flash langsam in KDE 4