Gibt es einen bestimmten oder messbaren Vorteil bei der Verwendung von ECC-RAM in einem Desktop-PC?

4189
Chris W. Rea

Ich mache mir viel Mühe mit dem Aufbau stabiler Maschinen - da ich absolut Abstürze, Neustarts, komisches Verhalten usw. hasse - und so würde die Fehlerkorrektur aka ECC RAM ein großes Problem zu lösen scheinen: Speicherfehler.

Aber klappt das wirklich? Gibt es einen messbaren Vorteil, z. B. weniger Abstürze oder anderes Verhalten?

Abgesehen von den Kosten können Sie ECC-Speicher für einen neuen PC-Build verwenden. Warum ist die ECC-Funktion vorwiegend für Server- / Workstation-Klassenmaschinen verfügbar und wird unterstützt, nicht jedoch für Consumer-orientierte Motherboards?

21
Yes, ECCs are really useful against soft errors. A soft error can crash a system if error is in memory access. It has been reported that a single soft error halted a billion-dollar industry. Here is a detailed [reference](https://www.academia.edu/12046032/A_Survey_of_Techniques_for_Modeling_and_Improving_Reliability_of_Computing_Systems) for this. user984260 vor 8 Jahren 1

4 Antworten auf die Frage

10
Avery Payne

Ich verwende ECC-RAM seit einigen Jahren in Servern. ECC glänzt wirklich, wenn Sie Ihr Gerät stark beanspruchen, da es in mehr als 12-16 Stunden pro Tag läuft. Wenige Whitebox-Server, die ich ohne ECC gebaut habe, haben früher oder später "Probleme" entwickelt, die einen Neustart erforderten, aber die ECC-Maschinen hatten diese noch nie .

So ist meine Antwort: Wenn Sie Ihren Computer verwenden eine Menge, dann ist es sehr wahrscheinlich, ja. Wenn Sie Ihren Computer rund um die Uhr nutzen, sollte dies ein Muss sein.

Es gibt einige Motherboards, die ECC da draußen unterstützen. Sie befinden sich normalerweise am "höheren" Ende der Dinge, aber mit ein wenig Recherche können Sie sie von verschiedenen Herstellern finden. Die einzige andere Überlegung ist, die ECC-Unterstützung im BIOS zu aktivieren.


Google ist zu diesem Thema in Schwung gekommen. Unter http://blogs.zdnet.com/storage/?p=638 erfahren Sie, wie sich dies auf moderne Systeme wirklich auswirkt.

"Wenige Whitebox-Server, die ich ohne ECC aufgebaut habe, haben früher oder später" Probleme "entwickelt, die einen Neustart erforderten." Dies ist ein wenig apokrypisches / Voodoo-Computing für meinen Geschmack. Jeff Atwood vor 14 Jahren 8
Und du denkst, ich bin mir dessen nicht bewusst? Wie können Sie sonst die * gleiche * Software auf derselben * Hardware * mit seltsamen Problemen erklären (E-Mail wird falsch geliefert), aber die Probleme lösen sich * nach * dem Ersetzen des gesamten RAM? Ich mag die Idee auch nicht, aber angesichts der Tatsache, dass dies die einzige wichtige Komponente war, die geändert werden musste, und in Verbindung mit den Problemen, die nach dem ECC-Upgrade * verschwinden *, ist es schwer zu ignorieren ... Avery Payne vor 14 Jahren 4
Ich habe auch vergessen zu erwähnen, dass der RAM vor dem ECC-Upgrade einmal ersetzt wurde und das Problem weiterhin bestand. Vielleicht war es eine schlechte Spur auf dem Mobo. Vielleicht war es ein Designfehler in der Tafel. Ich denke, im Nachhinein hätte es viele andere Probleme geben können, für die jeweils ein EE erforderlich war, um herauszufinden, ob es einen Bereich gibt, aber am Ende des Tages ließ die ECC das Thema verschwinden, wenn auch nur aus einem anderen Grund Stellen Sie sicher, dass die aus dem RAM abgerufenen Daten 100% konsistent sind. Jeff, ich stimme zu, dass es Voodoo ist ... Ich mag es nicht, aber da ist es. Avery Payne vor 14 Jahren 1
@Jeff Atwood - naja ... es stellt sich heraus, dass es Voodoo war, in dem Sinn, dass Sie dies nicht auf Ihrem Computer sehen können ... siehe http://www.cs.toronto.edu/~bianca/papers /sigmetrics09.pdf Avery Payne vor 14 Jahren 1
6
Jeff Atwood

Ich denke, ECC lohnt sich nur, wenn der Server es erfordert . Wikipedia :

Fehlererkennung und -korrektur in Computersystemen scheint in und aus der Mode zu gehen. Seymour Cray sagte bekanntlich "Parität ist für Landwirte", als er gefragt wurde, warum er dies von der CDC 6600 ausließ. Er nahm Parität in die CDC 7600 auf und sagte angeblich "Ich habe gelernt, dass viele Landwirte Computer kaufen."

Ich kann keine eindeutige Quelle im Internet finden, abgesehen von nebulösen Behauptungen von einem Bit Fehler pro Monat pro Gigabyte, was offensichtlich lächerlich ist. Server würden auf der ganzen Welt nach links und rechts abstürzen, wenn dies aus der Ferne wahr wäre.

Einige Highlights aus einem MetaFilter-Thread von aktuellen Server-Administratoren:

Ich denke, ECC ist cooles Zeug, aber ich hatte Server sowohl mit als auch ohne, und ich hatte nie die Anwesenheit oder Abwesenheit von irgendetwas gemacht, so oder so.

Ich verstehe den Zweck von ECC-RAM, aber nicht den Punkt. Ich meine, ich habe noch nie ein Problem entdeckt, das sich aus dem Kippen von kosmischen Strahlen ergibt. Auch auf persönlichen Rechen- / Kompilierungsservern mit mehrjähriger Betriebszeit. Nicht um zu sagen, dass die Bits nicht gekippt wurden, aber sie waren auf jeden Fall egal.

Nach meiner Erfahrung haben Sie hier und dort Farmen mit ein paar tausend Maschinen betrieben, Sie haben mit größerer Wahrscheinlichkeit Ext3 im Hintergrund, als dass Sie ein durch die ECC korrigierbares Problem haben.

Ich persönlich halte ECC für ein bisschen Frachtkult, aber es ist eine vernünftige Versicherungspolice für einen großen Server, solange die Kosten nicht zu hoch sind.

Absturz nach links und rechts? Ich denke nicht, dass es so schlimm wäre. Interessant: "Absturz nach links und rechts" ... Beachten Sie jedoch: Bitfehler können in nicht zugewiesenem RAM (Lots, auf nicht ausgelasteten Servern) oder in zugewiesenem Speicher auftreten, der wahrscheinlich nicht erneut ausgeführt oder referenziert wird, bevor er freigegeben und neu zugewiesen wird (z Wenn in Dead Code ein Fehler vorliegt, gibt es einen Ton ?.) Chris W. Rea vor 14 Jahren 0
Ich frage mich auch, ob Google etwas über Speicherfehler zu sagen hat. Sie betreiben eine Menge Server. Ich frage mich, wie viel Server-Ausfallzeit auf RAM-Fehler zurückzuführen wäre, im Gegensatz zu Netzteilen auf dem Fritz ... Chris W. Rea vor 14 Jahren 0
3
Jason S

Wir haben es für kritische Systeme betrachtet. Ein Problem besteht darin, wie zum Beispiel die Fehlererkennung in einer Software zur Überprüfung der Speicherintegrität durchgeführt wird, wenn das zur Ausführung der Speicherintegritätsprüfung verwendete Programm selbst zu Speicherfehlern anfällig sein kann. Grundsätzlich ist dies nicht möglich, was die Fehlermodusanalyse / -minderung schwierig macht. Daher ist ECC ein Mechanismus zur Schadensminderung.

Dies ist einer der Fälle, in denen bei Problemen tatsächlich kosmische Strahlen verantwortlich gemacht werden können ;)

2
ijprest

Ich würde den ECC-RAM für "missionskritische" Anwendungen in Betracht ziehen. Wenn ein Serverfehler dazu führt, dass Sie erhebliche Geldbeträge verlieren (oder Personen töten oder was auch immer), sollten Sie sich für den ECC-RAM entscheiden. Grundsätzlich sollten Sie die Kosten des ECC-RAMs im Vergleich zu dem abwägen, was Sie im Fehlerfall zu verlieren haben.

Egal was Sie entscheiden, ich empfehle MemTest86 + über Nacht auszuführen (oder lang genug, um mehrere Durchgänge über den gesamten Adressraum zu machen). Wenn Sie die Hitze (im wahrsten Sinne des Wortes) aufdrehen können, erhalten Sie eine Vorstellung davon, wie sich Ihr RAM verhält, wenn das System heiß läuft.

Ich hatte brandneue RAM-Fehler in MemTest. Ich hatte auch "gute" RAM-Fehler, die MemTest im Laufe der Zeit entdeckte. Es ist ein großartiges Werkzeug und eines der ersten Dinge, die ich auf einem neuen System ausführen kann.