Optionen für skalierbare Commodity-GPU-Server für CUDA?

2417
Dave S

Ich mache einige maschinelle Lernarbeit, die enorm von der Verwendung der GPU profitiert. Ich bin an den Grenzen meines derzeitigen Setups (Eine Workstation mit einem einzelnen GTX580) und ich habe wirklich keinen Platz für einen anderen Computer zu Hause. Ich schaue also nach einem GPU-Server (und möglicherweise auch mehreren) und versuche, den kostengünstigsten Weg zu finden.

Idealerweise würde ich gerne etwas wie die Tesla-Server von NVidia (z. B. s2075) bauen, jedoch mit GTX580s anstelle von Tesla-Karten. Dieses passt 4 Karten in ein 1u-Chassis ein, das dann über PCI-e-Extender an ein Hostsystem angeschlossen wird. Eine DIY-Version davon scheint nicht zu existieren.

Mein nächster Plan ist also 4u und setzt im Grunde einen Standard-Quad-SLI-Build ein. Ich würde wahrscheinlich 2 850-Watt-Netzteil verwenden, um die 4 Karten mit Strom zu versorgen. Kühlung könnte auch ein Problem sein.

Meine Fragen lauten also genau so:

  • Wenn ich hauptsächlich die GPU verwende und nur die CPU für die Handhabung grundlegender Logik und sonstiger Dinge verwende, ist es sinnvoll, eine Low-End-CPU wie einen i3 zu verwenden?
  • Wenn ich zusammenfinden möchte, wäre das nicht ziemlich teuer / würde ich viel Strom verbrauchen?
  • Mache ich das falsch, und gibt es eine viel einfachere / kostengünstigere Möglichkeit, GPU-Nummern-Crunchers zu bauen und nicht in meiner Wohnung zu behalten?
4
NVidia listet einige Unternehmen auf, die Cloud-basierte On-Demand-GPUs für Ihre Art von Anwendung anbieten, wobei Amazon der große Player ist: http://www.nvidia.com/object/gpu-cloud-computing-services.html Es gibt sogar eine kostenlose Probefahrt: http://aws.amazon.com/gpu/ jozzas vor 11 Jahren 0
Amazon bietet diese an, ist aber langsam (https://groups.google.com/d/msg/theano-users/2w8b3GB2AU4/XgChVNLcFQoJ) und kostet ein absolutes Vermögen (~ 20.000 $ für ein Jahr). Ich bin ein großer Fan von AWS, aber für diesen speziellen Fall glaube ich nicht, dass sie eine gute Wahl sind. Dave S vor 11 Jahren 0
Stellen Sie sich vor, Berechnungen rund um die Uhr an 365 Tagen im Jahr auszuführen? Der Amazon-Service ist auf Anfrage erhältlich und kostet ~ 2 USD pro Stunde. Wenn Sie vorhaben, etwas rund um die Uhr zu benötigen, ist das Erstellen * vielleicht eine bessere Option, aber Sie müssen eine Kosten-Nutzen-Analyse durchführen. jozzas vor 11 Jahren 1
Quad-SLI- oder Quad-GPU-Karte? (SLI dient zum Rendern von Grafiken. Vier Karten können als vier * Berechnungsquellen * verwendet werden). Hennes vor 10 Jahren 0

4 Antworten auf die Frage

1
Dave S

Ich habe ein bisschen mehr recherchiert und werde diese Frage selbst beantworten, falls jemand etwas Ähnliches finden möchte.

AWS (und andere Anbieter) stellen GPU-Cloud-Compute-Dienste bereit. Dies funktioniert gut für bestimmte Anwendungen, aber sicherlich nicht für alle. Wie ich am besten sagen kann, sind die virtualisierten GPU-Cluster in der Regel langsamer als die von ihnen beworbene Hardware, und sie sind teuer, wenn Sie sie regelmäßig verwenden. Zu den Anwendungen, bei denen die Erstellung eigener Hardware möglicherweise sinnvoll ist, zählen 3D-Rendering und bestimmte Arten des maschinellen Lernens, die von der Verwendung einer GPU profitieren. Wenn Sie nur periodisches Zahlen-Crunching durchführen, ist Cloud-GPU eine gute Wahl.

Also zu meiner ursprünglichen Frage - das Beste für Ihr Geld für GPU-Server. Derzeit ist die GTX580 (~ 400 $) im Vergleich zu den VIEL teureren Tesla- und Quadro-Karten von großem Wert, und die Leistung ist vergleichbar. Ein Quadro 6000 kostet derzeit $ 6.000 und erzielt bei GPGPU-Benchmarks (insbesondere NQueens) ungefähr die gleiche Leistung wie das 580. Die Tesla verfügen über mehr internen Speicher. Der 680 ist für GPGPU lahmgelegt und wird nicht so gut abschneiden wie der 580. Also, Mitte bis Ende 2012, kaufe die GTX 580s.

Quad-SLI scheint es nicht unbedingt wert zu sein. 4x SLI ist nicht viermal so schnell. Sie können jedoch mit 2 2x SLI immer noch 4 GPUs in Ihr System einsetzen. Dies scheint ein ziemlich guter Kompromiss zu sein. Oder lassen Sie sie einfach als separate Karten.

Sieht aus wie ein 4U-Chassis, was Sie benötigen, wenn Sie es in ein Rack einbauen möchten. Sie werden wahrscheinlich 2 750-Watt-Netzteile benötigen.

Auf CPU - ich kann darauf keine direkte Antwort bekommen. Für mich selbst bekomme ich wahrscheinlich eher ein niedrigeres i5 als ein i3.

Bauen Sie von hier aus so viele dieser Systeme auf, wie Sie benötigen, und stellen Sie sie in ein Rack (Co-Lo oder Server-Raum). Für theoretische 6 t-Flops von 4 gtx580s sehen Sie wahrscheinlich weniger als 2500 $ pro Einheit. Das ist ziemlich gut für dein Geld.

Zum Vergleich: Ein nvidia tesla s1070 macht 4 Tflops und kostet etwa 8.000 bis 10.000 Dollar. Aber das ist der "Unternehmenspreis" für Leistung, den Sie viel billiger bekommen können.

Die Stromrechnung war etwas, worüber ich auch neugierig war. Ich kann darauf keine direkte Antwort bekommen. Ich vermute, es wird hoch sein.

wird der kommende Xeon Phi nicht Ihren Bedürfnissen entsprechen? Es wird hoffentlich 1T-Flop mit doppelter Genauigkeit der Gleitkomma-Leistung haben. Es wird auch 8 GB RAM haben. Es ist wahrscheinlich leistungsstärker als GPUs, wenn man bedenkt, dass es 22nm ist titus vor 11 Jahren 0
Erwarten Sie nicht, dass Ihre Karten Spitzenleistung erbringen. Es hängt von Ihrer Anwendung ab, ob sie sie effektiv nutzt. Daher ist es nicht wirklich angebracht zu sagen, dass es 6Tflops an Leistung haben wird. Auch dies ist Single-Precision-Performance, Double-Precision-Performance ist viel schlechter titus vor 11 Jahren 0
Wirst du es wirklich rund um die Uhr nutzen? Es ist möglicherweise effizienter, eine Instanz von Amazon zu mieten, wenn Sie sie benötigen. titus vor 11 Jahren 0
1
Keltari

Most server chassis are not designed for the amount of heat the 4 cards are going to put out. And it sounds like your applications will be pushing the cards to peak levels. You will definitely need to closely monitor the individual cards temperatures, as well as the processor. You very well might need additional fans, or even go to a liquid cooling solution.

Another issue is noise. If its in a colo space, no big deal. However, you said this might go in your apartment and that could be an issue. Fans on consumer graphics cards vary from vendor to vendor. Even "quiet" fans on graphics cards have noise and you will multiply that by 4, not to mention any additional fans used for cooling. Again, a liquid cooling solution might be a good solution.

Ja, da hast du absolut recht. Flüssigkeitskühlung könnte eine wirklich gute Wahl sein - ich habe mich seit Jahren nicht mehr damit befasst, aber ich vermute, dass der Markt / die Ausrüstung seitdem viel gereift ist. Lärm - Ja, da kommt man wahrscheinlich nicht herum. Die Lüfter der 580er sind ziemlich laut, so dass es sich trotz Flüssigkeitskühlung immer noch wie ein Düsentriebwerk anhören würde. Dave S vor 11 Jahren 0
Flüssigkeitskühlung entfernt die Lüfter und verwendet hohle Kühlkörper, durch die das Kühlmittel strömen kann. Keltari vor 11 Jahren 0
asus directCU sollte die Karten kühler halten, obwohl dies möglicherweise teurer ist titus vor 11 Jahren 0
1
titus

Wenn Sie eine einzige Gleitkomma-Leistung benötigen, wählen Sie die GTX680. Sie ist außerdem energieeffizienter und Sie zahlen nicht so viel Strom. Wenn Sie doppelte Gleitkomma-Leistung benötigen, wählen
Sie die GTX 580. Schauen Sie sich diesen Blogbeitrag an.
Auch Renderstream hatte einen Blogpost über einen 8GPU 4U Server. Es ist 14k $. Das BIOS wurde korrigiert, damit es mit allen 8 Karten funktioniert. Ich denke, nur der Barebones-Server kostet 3k $.
Ich bin auch auf der Suche nach einer solchen Maschine in der Zukunft. Ich bin mir noch nicht sicher, ob es die Mühe wert ist, und ich leihe sie einfach, wenn ich sie brauche. Es kann eine gute Idee sein, die Kosten aufzuteilen und eine Maschine zu teilen, aber wir könnten am Ende auf die Zehen des anderen treten.

0
Sirex

I'm pretty sure amazon offer such a thing.

Likely for a lot cheaper than you'll be able to do it also.

http://aws.amazon.com/hpc-applications/

http://hpc.nomad-labs.com/archives/65

That would remove a lot of the complexity in what you want to do.

Vielen Dank für die Antwort, aber AWS ist dafür eine schlechte Wahl. 1) es ist langsam (Link in Kommentar oben, aber hier ist eine Diskussion: https://groups.google.com/d/msg/theano-users/2w8b3GB2AU4/XgChVNLcFQoJ) und 2) es ist WIRKLICH teuer, etwa 20.000 USD pro Jahr. Dave S vor 11 Jahren 0
Es ist Cloud Computing. Sie sollen es nicht rund um die Uhr laufen lassen. Ein 8-Teraflop-Cluster kostet 17 USD pro Stunde. Wie viele Terraflop-Stunden benötigen Sie für Ihre Arbeit? Sirex vor 11 Jahren 0