Die Ursache für 0x124 WHEA_UNCORRECTABLE_ERROR wurde unter Adresse ntoskrnl.exe + 4b314c dauerhaft isoliert

580
rkagerer

Ich habe eine Windows 7 64-Bit-Maschine, die ungefähr einmal im Monat einfriert. Die letzten fünf Minidumps zeigen alle "Cursed by address" ntoskrnl.exe + 4b314c an, und ich versuche herauszufinden, wem der Code an dieser Adresse gehört (oder fehlgeschlagene Aufrufe von).

Hier ist die !analyze -vAusgabe des neuesten Mini-Dumps:

Microsoft (R) Windows Debugger Version 6.3.9600.17029 AMD64 Copyright (c) Microsoft Corporation. All rights reserved.   Loading Dump File [C:\Windows\Minidump\102116-50450-01.dmp] Mini Kernel Dump File: Only registers and stack trace are available   ************* Symbol Path validation summary ************** Response Time (ms) Location Deferred SRV*C:\SymCache*http://msdl.microsoft.com/download/symbols Symbol search path is: SRV*C:\SymCache*http://msdl.microsoft.com/download/symbols Executable search path is:  Windows 7 Kernel Version 7601 (Service Pack 1) MP (12 procs) Free x64 Product: WinNt, suite: TerminalServer SingleUserTS Built by: 7601.19160.amd64fre.win7sp1_gdr.160211-0600 Machine Name: Kernel base = 0xfffff800`04201000 PsLoadedModuleList = 0xfffff800`04448730 Debug session time: Fri Oct 21 16:47:24.260 2016 (UTC - 7:00) System Uptime: 0 days 0:00:25.275 Loading Kernel Symbols .  Press ctrl-c (cdb, kd, ntsd) or ctrl-break (windbg) to abort symbol loads that take too long. Run !sym noisy before .reload to track down problems loading symbols.  .............................................................. .......... Loading User Symbols Mini Kernel Dump does not contain unloaded driver list ******************************************************************************* * * * Bugcheck Analysis * * * *******************************************************************************  Use !analyze -v to get detailed debugging information.  BugCheck 124,   Probably caused by : GenuineIntel  Followup: MachineOwner ---------  7: kd> !analyze -v ******************************************************************************* * * * Bugcheck Analysis * * * *******************************************************************************  WHEA_UNCORRECTABLE_ERROR (124) A fatal hardware error has occurred. Parameter 1 identifies the type of error source that reported the error. Parameter 2 holds the address of the WHEA_ERROR_RECORD structure that describes the error conditon. Arguments: Arg1: 0000000000000000, Machine Check Exception Arg2: fffffa802d3f77c8, Address of the WHEA_ERROR_RECORD structure. Arg3: 0000000000000000, High order 32-bits of the MCi_STATUS value. Arg4: 0000000000000000, Low order 32-bits of the MCi_STATUS value.  Debugging Details: ------------------   BUGCHECK_STR: 0x124_GenuineIntel  CUSTOMER_CRASH_COUNT: 1  DEFAULT_BUCKET_ID: WIN7_DRIVER_FAULT  PROCESS_NAME: System  CURRENT_IRQL: 0  ANALYSIS_VERSION: 6.3.9600.17029 (debuggers(dbg).140219-1702) amd64fre  STACK_TEXT:  fffff880`03d1d6f0 fffff800`044c5cb9 : fffffa80`2d3f77a0 fffffa80`24f7eb50 00000000`00000029 00000000`00000000 : nt!WheapCreateLiveTriageDump+0x6c fffff880`03d1dc10 fffff800`043a4c07 : fffffa80`2d3f77a0 fffff800`0441f2d8 fffffa80`24f7eb50 00000000`00000000 : nt!WheapCreateTriageDumpFromPreviousSession+0x49 fffff880`03d1dc40 fffff800`0430bc55 : fffff800`04481ba0 00000000`00000001 fffffa80`2d456090 fffffa80`24f7eb50 : nt!WheapProcessWorkQueueItem+0x57 fffff880`03d1dc80 fffff800`0427e065 : fffff880`01776e00 fffff800`0430bc30 fffffa80`24f7eb00 00000000`00000000 : nt!WheapWorkQueueWorkerRoutine+0x25 fffff880`03d1dcb0 fffff800`0450fc6a : 00000000`00000000 fffffa80`24f7eb50 00000000`00000080 fffffa80`24eda870 : nt!ExpWorkerThread+0x111 fffff880`03d1dd40 fffff800`04266086 : fffff880`03b31180 fffffa80`24f7eb50 fffff880`03b3c1c0 00000000`00000000 : nt!PspSystemThreadStartup+0x5a fffff880`03d1dd80 00000000`00000000 : fffff880`03d1e000 fffff880`03d18000 fffff880`03d1d9e0 00000000`00000000 : nt!KxStartSystemThread+0x16   STACK_COMMAND: kb  FOLLOWUP_NAME: MachineOwner  MODULE_NAME: GenuineIntel  IMAGE_NAME: GenuineIntel  DEBUG_FLR_IMAGE_TIMESTAMP: 0  IMAGE_VERSION:   FAILURE_BUCKET_ID: X64_0x124_GenuineIntel_PROCESSOR_MAE_PRV  BUCKET_ID: X64_0x124_GenuineIntel_PROCESSOR_MAE_PRV  ANALYSIS_SOURCE: KM  FAILURE_ID_HASH_STRING: km:x64_0x124_genuineintel_processor_mae_prv  FAILURE_ID_HASH:   Followup: MachineOwner 

Und hier ist die Ausgabe von !errrec fffffa802d3f77c8

7: kd> !errrec fffffa802d3f77c8 =============================================================================== Common Platform Error Record @ fffffa802d3f77c8 ------------------------------------------------------------------------------- Record Id : 01d22bf56b81ac86 Severity : Fatal (1) Length : 864 Creator : Microsoft Notify Type : Machine Check Exception Timestamp : 10/21/2016 23:47:24 (UTC) Flags : 0x00000002 PreviousError  =============================================================================== Section 0 : Processor Generic ------------------------------------------------------------------------------- Descriptor @ fffffa802d3f7848 Section @ fffffa802d3f7920 Offset : 344 Length : 192 Flags : 0x00000001 Primary Severity : Fatal  Proc. Type : x86/x64 Instr. Set : x64 Error Type : Micro-Architectural Error Flags : 0x00 CPU Version : 0x00000000000206c0 Processor ID : 0x0000000000000000  =============================================================================== Section 1 : x86/x64 Processor Specific ------------------------------------------------------------------------------- Descriptor @ fffffa802d3f7890 Section @ fffffa802d3f79e0 Offset : 536 Length : 64 Flags : 0x00000000 Severity : Fatal  Local APIC Id : 0x0000000000000000 CPU Id : c0 06 02 00 00 08 20 00 - ff e3 9e 02 ff fb eb bf 00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 00 00  =============================================================================== Section 2 : x86/x64 MCA ------------------------------------------------------------------------------- Descriptor @ fffffa802d3f78d8 Section @ fffffa802d3f7a20 Offset : 600 Length : 264 Flags : 0x00000000 Severity : Fatal  Error : Unknown (Proc 0 Bank 2) Status : 0xb200000000010005 

Dies ist eine Whitebox-Maschine, die vor einigen Jahren gebaut wurde (Teile wurden im Laufe der Zeit aktualisiert, um auf dem neuesten Stand zu bleiben). In regelmäßigen Abständen stelle ich sicher, dass es alle Stresstests besteht, die ich darauf werfen kann (Prime95, Memtest86 usw.). Ich habe ein paar kurze Wiederholungsversuche ohne Fehler durchgeführt und werde über Nacht die vollen Zyklen wiederholen.

Ich dachte, dass das Einfrieren ursprünglich begann, nachdem ich vor ein oder zwei Jahren mehrere Software-Komponenten (möglicherweise einschließlich Treiber) installiert hatte, aber zu der Zeit keine Zeit für eine Untersuchung oder Fehlerbehebung hatte. Ich kann mich nicht erinnern, welche Software es gewesen wäre oder genau wann (und um ehrlich zu sein, dass dies nicht verwandt sein könnte oder ein anderer Satz von BSODs bereits gelöst wurde). Ich habe eine Weile zurückgegangen und Software / Treiber ausgesucht, insbesondere alles, was möglicherweise verdächtig aussah oder in anderen, älteren BSODs (z. B. cbfs5.sys) vorkam.

Ich habe die neuesten BIOS-Updates und die neuesten Treiber installiert, die für mich ordnungsgemäß funktionieren. (Ein Teil der Hardware ist alt und in seltenen Fällen habe ich festgestellt, dass die neuesten Treiber andere Probleme verursachen). Die meisten Windows-Updates sind installiert (in den letzten Monaten gab es möglicherweise noch einige, die noch nicht angewendet wurden.) Da es sich um eine ziemlich kritische Arbeitsstation handelt, gehe ich bei der Aktualisierung sehr kontrolliert vor, um vorher ein vollständiges Backup-Image zu erstellen und eine Reihe von Updates zu erstellen Regressionstests nach jedem Aktualisierungszyklus. Als Ergebnis der Aktualisierung bin ich langsam, aber im Allgemeinen ist diese Maschine stabiler und vorhersehbarer als die anderen, bei denen ich behaupte, dass sie automatisch aktualisiert werden. Das ist ein Grund, warum ich Win 10 für den Moment ablehne ).

Die Temperaturen scheinen alle angemessen zu sein.

Mein System ist für das Schreiben von Kernel-Speicherabbildern konfiguriert, aus unbekannten Gründen wird jedoch nicht geschrieben, wenn dieses Problem auftritt (es ist heute früher aufgetreten, aber mein MEMORY.DMP unter diesem Pfad hat ein Änderungsdatum vor fast einem Monat).

Das Motherboard ist ein Asus P6T6 WS Revolution (X58-Chipsatz) und die CPU ist ein 2,4-GHz-Hex-Core-Intel Xeon E5645. Ich habe 48 GB ECC-RAM installiert.

Ich habe keine Erfahrung mit der Analyse von Speicherabbildern und wäre für jede Hilfe / Anregung dankbar.

1
Aktualisieren Sie die BISO / UEFI, führen Sie ein CPU-Testprogramm aus. Möglicherweise ist die CPU beschädigt magicandre1981 vor 7 Jahren 0
Ich verwende Prime95, das damit noch kein Problem aufdeckt. Gibt es andere CPU-Belastungstests, die Sie vorschlagen würden? rkagerer vor 7 Jahren 0
Versuchen Sie auch ein Speichertest-Tool wie memtest86 +. Suchen Sie auch nach einem BIOS-Update oder reflash das aktuelle BIOS: magicandre1981 vor 7 Jahren 0
Ja, ich habe das alles gemacht. Prime95 (alle drei Folterprüfungen), Memtest86, Memtest86 +; das waren die ersten Dinge, die ich tat. rkagerer vor 7 Jahren 0
Hast du nach einem BIOS-Update gesucht? magicandre1981 vor 7 Jahren 0
Ja, ich bin auf dem neuesten Stand. rkagerer vor 7 Jahren 0
Sie könnten einen anderen Prozessor verwenden, der mit dem Motherboard kompatibel ist, oder den mit einem anderen Motherboard kompatiblen Speicherchip austauschen, auch wenn der Memtest keine Probleme zeigte. Überprüfen Sie die BIOS-Einstellungen und prüfen Sie, ob es die Taktfrequenz usw. zulässt, und nehmen Sie gegebenenfalls Anpassungen vor, und prüfen Sie, ob dies den anderen hilft (verlangsamen Sie die Taktfrequenz usw.). Wenn Sie außerdem das Motherboard-Modell und den CPU-Typ angeben können, kann dies ebenfalls hilfreich sein. Pimp Juice IT vor 7 Jahren 0
Würde diese Frage helfen, herauszufinden, welches Gerät diesen Standort verwendet? http://superuser.com/questions/196300/how-to-know-which-devices-einer-zugeordnet-einer-speicherserie-in-wien-7 strobelight vor 7 Jahren 0

1 Antwort auf die Frage

1
Brian Nixon

Der Fehler, wie im Fehlerprotokoll angedeutet, stammt von der Machine-Check-Architektur des Prozessors .

Einige Hintergründe aus dem Ntdebugging- Blog von MSDN : Interpretieren eines WHEA-Fehlers für einen MCA-Fehler .

Alle Einzelheiten zu MCA finden Sie in Kapitel 15 des Handbuchs zum Intel Software-Entwickler, Band 3B .

Die nützliche Information im Dump ist die letzte Zeile des Fehlersatzes. Dies ist der Wert des zugehörigen modellspezifischen Registers IA32_MCi_STATUS. Dies ist in Abschnitt 15.3.2.2 des Intel-Handbuchs dokumentiert. Ihr Wert von 0xb200000000010005bricht zusammen als:

  • Bit 63: Register gültig
  • Bit 61: Fehler nicht korrigiert
  • Bit 60: Fehler aktiviert
  • Bit 57: Prozessorkontext beschädigt
  • Bits 31–16: Modellspezifischer Fehlercode 1
    (der für Ihren Prozessor nicht öffentlich dokumentiert zu sein scheint)
  • Bits 15–0: MCA-Fehlercode 5
    (der gemäß Tabelle 15–8 in Abschnitt 15.9.1 einen internen Paritätsfehler bedeutet )

Ich weiß nicht, ob das alles darauf hindeutet, dass Ihre CPU, Ihr Motherboard oder eine andere Hardware fehlerhaft ist. Es scheint jedoch unwahrscheinlich, dass es sich um ein Softwareproblem handelt, da Software nicht in der Lage sein sollte, einen internen Hardwarefehler wie diesen zu verursachen.

Möglicherweise möchten Sie versuchen, die Einstellungen für den Speicherauszug von "Small memory dump" in "Kernel memory dump" zu ändern und darauf zu warten, dass der Fehler erneut auftritt. Vielleicht geben Ihnen die zusätzlichen Informationen in der größeren Dump-Datei einige zusätzliche Hinweise auf die Ereignisse zum Zeitpunkt des Absturzes.

Vielen Dank; das ist super hilfreiche information! Glauben Sie aufgrund dessen, dass ein Speicherproblem möglicherweise die Ursache ist, oder können wir ziemlich sicher sein, dass der Täter die CPU oder ihre unterstützenden Schaltkreise ist? Mein System ist so konfiguriert, dass es Kernel-Dumps erstellt, aber aus irgendeinem Grund bekomme ich sie nicht; Ich muss mich umschauen, um herauszufinden, warum (keine Sorge, ich kann das alleine tun). Was das Kopfgeld angeht, warte ich ein paar Tage, nur falls jemand anderes klingelt, aber im Moment sieht es so aus, als würden Sie es bekommen. rkagerer vor 7 Jahren 0
Ich kann ehrlich nicht sagen, wo der Fehler am wahrscheinlichsten ist. Mein Bauchgefühl ist, dass es sich nicht um Speicher handeln sollte, da ich davon ausgehen würde, dass ein Problem erkannt und speziell als Speicherfehler und nicht als CPU-Fehler gemeldet wird. Brian Nixon vor 7 Jahren 0
In Bezug auf Kernel-Dumps: Sie müssen sicherstellen, dass Sie eine Auslagerungsdatei haben, die groß genug ist, um eine zu speichern (1 GB sollte mehr als genug sein), UND Sie müssen mindestens 25 GB auf dem Volume haben, auf dem sie gespeichert werden sollen (oder `festlegen ') HKLM \ SYSTEM \ CurrentControlSet \ Control \ CrashControl \ AlwaysKeepMemoryDump` zu DWORD: 1). Überprüfen Sie das Ereignisprotokoll für frühere Abstürze des BugCheck-Ereignisses 1018, um zu sehen, ob Ihr Dump gelöscht wurde. In Kapitel 14 von [Windows Internals, Teil 2] (https://www.microsoftpressstore.com/store/windows-internals-part-2-9780735665873 "Microsoft Press") wird darauf ausführlich eingegangen. Brian Nixon vor 7 Jahren 0
Prämie vergeben Wenden Sie sich unter bitbounty@trashmail.com an mich, um den Bitcoin-Teil zu arrangieren (beachten Sie, dass die E-Mail an meine echte weitergeleitet wird und am 1. Dezember abläuft). rkagerer vor 7 Jahren 0
@rkagerer: Das ist sehr großzügig von dir. Ich komme jedoch nicht nach SU, um Geld zu verdienen. Bitte überlegen Sie, an eine oder mehrere von [GiveWells empfohlenen Wohltätigkeitsorganisationen] (http://www.givewell.org/charities/top-charities "GiveWell") oder an eine andere Sache zu spenden, die Sie für ähnlich lohnenswert halten, da es viele Menschen gibt, die dies tun brauche das Geld viel mehr als ich. Vielen Dank! Brian Nixon vor 7 Jahren 0