MapReduce und Hadoop: Welche Probleme lösen sie gut?

636
Kaitlyn Mcmordie

Wie ich es bereits verstehe, scheinen beide Funktionen ähnliche Funktionen zu haben (mit Ausnahme, dass MapReduce Google gehört, während Hadoop Open Source ist).

Ich habe mich gefragt, nicht "wie sie funktionieren", sondern einige gute Beispiele für die üblichen Probleme, die sie lösen. Ich weiß, dass sie parallele Eingänge annehmen (oder parallel machen). Werden MapReduce und Hadoop für generische parallele Berechnungen verwendet, oder muss ein Problem spezifischer sein, damit es für die beiden Modelle besser geeignet ist?

-1

1 Antwort auf die Frage

1
Ƭᴇcʜιᴇ007

Vergessen Sie nicht Hadoop MapReduce . :)

"Verwendet" für MapReduce (laut Wikipedia ):

MapReduce eignet sich für eine Vielzahl von Anwendungen, darunter verteiltes grep, verteilte Sortierung, Umkehrung der Web-Link-Grafik, Termvektor pro Host, Statistikstatistiken für den Webzugriff, Aufbau des invertierten Indexes, Dokument-Clustering, maschinelles Lernen und statistische Maschinenübersetzung. Darüber hinaus wurde das MapReduce-Modell an verschiedene Computerumgebungen angepasst, darunter Multi-Core- und Many-Core-Systeme, Desktop-Grids, Umgebungen für freiwillige Computer, dynamische Cloud-Umgebungen und mobile Umgebungen.

Bei Google wurde MapReduce verwendet, um den Index des World Wide Web von Google vollständig neu zu erstellen.

Es ersetzte die alten Ad-hoc-Programme, die den Index aktualisierten und die verschiedenen Analysen durchführten.

Auf dieser Seite finden Sie eine große Liste von Organisationen, die Hadoop verwenden, und wofür sie es verwenden.

Einige der "B" zum Beispiel:

BabaCar ◦ 4 Knoten-Cluster (32 Kerne, 1 TB).

◦ Wir nutzen Hadoop für die Suche und Analyse von Millionen von Mietbuchungen.

Baidu - die führende Suchmaschine in chinesischer Sprache ◦ Hadoop wurde zur Analyse des Suchprotokolls und zur Mining-Arbeit in der Webseitendatenbank verwendet

◦ Wir bearbeiten etwa 3000 TB pro Woche

◦ Unsere Cluster variieren zwischen 10 und 500 Knoten

◦ Hypertable wird auch von Baidu unterstützt

Beebler ◦ 14-Knoten-Cluster (jeder Knoten verfügt über: 2 Dual-Core-CPUs, 2 TB Speicher, 8 GB RAM)

◦ Wir verwenden Hadoop zum Abgleichen von Dating-Profilen

Benipal Technologies - Outsourcing, Beratung, Innovation ◦ 35-Knoten-Cluster (Core2Quad Q9400 Prozessor, 4-8 GB RAM, 500 GB HDD)

◦ Größter Datenknoten mit Xeon E5420 * 2-Prozessoren, 64 GB RAM, 3,5 TB HDD

◦ Gesamt-Clusterkapazität von etwa 20 TB in einem Gigabit-Netzwerk mit Failover und Redundanz

◦ Hadoop wird für das interne Crunching von Daten, für die Anwendungsentwicklung, für Tests und für die Vermeidung von E / A-Einschränkungen verwendet

Wow, danke! Übrigens, wenn diese massiven Datenknirschen wie Beebler und Googles Suchmaschine auftreten, denke ich, was ich mich gefragt habe, wissen Sie, welche Informationen "gemappt" werden und was dann "reduziert" wird? :) Kaitlyn Mcmordie vor 12 Jahren 0