DFS für mehrere kleine Cluster über WAN

723

Meine Freunde und ich haben alle TBs auf unseren Systemen. Keiner von uns verfügt über vollständige Sicherungen, die jedoch geografisch verteilt sind, da bei dieser Datenmenge Lösungen wie Dropbox, S3, et al. sind für uns unerschwinglich. Jeder von uns hat jedoch einen übermäßigen lokalen Speicher. TBs werden in der Tat ungenutzt.

Wir fingen an zu denken: Wenn wir unsere Hosts in irgendeiner Form eines verteilten Dateisystems vernetzen könnten, könnten wir jeweils geografisch verteilte Sicherungen unserer kompletten Datensätze gewinnen und gleichzeitig die Speicherkapazität, die wir haben, besser auslasten. Die perfekte Lösung ... denken wir.

  1. Wir sind mindestens drei von uns. Sicherlich 6 oder mehr, wenn das Projekt Früchte trägt.
  2. Jeder von uns hat 1-2 TB Daten und mindestens so viel übrig.
  3. Wir sind alle über WAN verteilt.
  4. Wir benötigen die Fähigkeit eines Hosts, den Cloud-Service willkürlich zu betreten und zu verlassen.
  5. Echte (ish) Zeitsynchronisation. Ansonsten würden wir uns nur einmal in der Woche bei Bier treffen und um einen Stapel externer Festplatten tauschen.
  6. F / OSS ist erforderlich, aber wir haben reichlich Ellenbogenfett.
  7. Wenn wir in diesem Prozess eine verteilte Computing-Plattform einsetzen / lernen / nutzen können, umso besser.

Wir haben darüber nachgedacht, ob Sie eine Dropbox-artige Benutzeroberfläche auf OpenStack oder Hadoop erstellen könnten, aber ich würde gerne wissen, ob es andere Alternativen gibt, die wir ignorieren. Vielleicht gibt es für unseren Fall eine noch einfachere Lösung? Ist so etwas überhaupt möglich, angesichts der geringen Anzahl von Knoten pro Cluster?

NB: Natürlich dauert die anfängliche Synchronisierung / Abgleichung / Übertragung / etc zumindest Tage, aber das ist akzeptabel.

2
Wenn es nicht FOSS sein muss, vermute ich, dass crashplan dafür perfekt funktioniert. Auch wenn dies nicht der Fall ist, haben sie einige interessante Ideen Journeyman Geek vor 12 Jahren 0
@JourneymanGeek: Post als Antwort und ich akzeptiere. Es scheint nicht so, als würden wir dieses Ding mit der Hardware, die wir haben, f / OSS machen können (es sei denn, wir bauen das ganze System nach Maß). vor 12 Jahren 1

2 Antworten auf die Frage

2
Kam Salisbury

Ich habe sshfs auf Ubuntu-Server und ein einfaches rsync-Skript über cron verwendet. Jeder Host behält seine eigene Autonomie (auch wenn ich in meiner Konfiguration über drei Hosts über Root-Zugriff verfügt) und wie oft ich über Knoten hinweg replizieren kann und auf welche Knoten auch vollständig kontrollierbar ist. Die Speichermenge kann über eine Partition oder ein Kontingent gesteuert werden. Ich habe mich für die Partition entschieden, einfach weil ich alle 3 Hosts kontrolliere. Ein Nachteil ist die mangelnde Steuerung der Replikationsfrequenz (Synchronisierung). Wenn ein Host häufig synchronisiert, kann er die Bandbreite zu stark nutzen, insbesondere wenn Snapshots im gesamten WAN verwendet werden. Es ist notwendig, gut mit anderen zu spielen und kbps-Grenzwerte für die rsync-Befehle zu verwenden.

1
Journeyman Geek

Es ist nicht FOSS, aber dafür ist Crashplan eine ziemlich gute Option. Einfach einzurichten und auszuführen, aber 3, 4 und 5 sind perfekt. Das Einrichten ist ganz einfach. Installieren Sie den Client, legen Sie einen nutzbaren Speicherplatz fest und fügen Sie Personen hinzu, die diesen Speicherplatz verwenden möchten.