CPU-Wärmemanagement, Fehlverhalten erkennen

468
Dohn Joe

CPUs verfügen über die Funktion, dynamisch entsprechend ihrer Temperatur herunterzufahren, um Überhitzung zu vermeiden. Bei der Arbeit habe ich zwei Server, von denen einer ein schlechtes Verhalten zeigt (zufällige Neustarts).

Das folgende Snippet weiter unten ist etwas, das ich in den Systemprotokollen beider Maschinen sehe. Ist dies eine Folge des normalen Betriebs der dynamischen Frequenzskalierung der CPU oder ist dies ein Hinweis auf einen Fehler (z. B. fehlerhafte Anwendung von Wärmeleitpaste)?

Ich würde erwarten, dass etwas so banales wie die dynamische Frequenzskalierung einer modernen CPU nicht in den Systemprotokollen auftauchen würde.

Als Randbemerkung: Zu keinem Zeitpunkt der Serverzeit wurde bei uns ein Overclocking durchgeführt oder versucht.

The kernel log indicates that hardware errors were detected. System log may have more information. The last 20 mcelog lines of system log are: ========================================== Jan 31 17:13:12 apollo3 mcelog: Family 6 Model 4f CPU: only decoding architectural errors Feb 2 15:07:50 apollo3 mcelog: Family 6 Model 4f CPU: only decoding architectural errors Feb 2 15:07:50 apollo3 mcelog: Hardware event. This is not a software error. Feb 2 15:07:50 apollo3 mcelog: MCE 0 Feb 2 15:07:50 apollo3 mcelog: CPU 1 THERMAL EVENT TSC 15900247053fc Feb 2 15:07:50 apollo3 mcelog: TIME 1486044329 Thu Feb 2 15:05:29 2017 Feb 2 15:07:50 apollo3 mcelog: Processor 1 heated above trip temperature. Throttling enabled. Feb 2 15:07:50 apollo3 mcelog: Please check your system cooling. Performance will be impacted Feb 2 15:07:50 apollo3 mcelog: STATUS 88000bcb MCGSTATUS 0 Feb 2 15:07:50 apollo3 mcelog: MCGCAP 7000c16 APICID 4 SOCKETID 0 Feb 2 15:07:50 apollo3 mcelog: CPUID Vendor Intel Family 6 Model 79 Feb 2 15:07:50 apollo3 mcelog: Family 6 Model 4f CPU: only decoding architectural errors Feb 2 15:07:50 apollo3 mcelog: Hardware event. This is not a software error. Feb 2 15:07:50 apollo3 mcelog: MCE 1 Feb 2 15:07:50 apollo3 mcelog: CPU 1 THERMAL EVENT TSC 15900247241ad Feb 2 15:07:50 apollo3 mcelog: TIME 1486044329 Thu Feb 2 15:05:29 2017 Feb 2 15:07:50 apollo3 mcelog: Processor 1 below trip temperature. Throttling disabled Feb 2 15:07:50 apollo3 mcelog: STATUS 88010a8a MCGSTATUS 0 Feb 2 15:07:50 apollo3 mcelog: MCGCAP 7000c16 APICID 4 SOCKETID 0 Feb 2 15:07:50 apollo3 mcelog: CPUID Vendor Intel Family 6 Model 79 
0
Es sagt Ihnen ziemlich genau, dass ein Fehler vorliegt. Schauen Sie sich auch die [Dokumentation für dieses Protokoll] an (http://www.mcelog.org/thermal.html). Seth vor 7 Jahren 0

1 Antwort auf die Frage

0
hulaq

Wie es heißt - CPU überhitzt.

  1. Reinigen und überprüfen Sie alle Lüfter, wenn sie ordnungsgemäß funktionieren

  2. Tauschen Sie die Wärmeleitpaste aus (oder falls noch Garantie besteht, gehen Sie zu C)

  3. Wenden Sie sich an den Hersteller, wenn das Problem weiterhin auftritt