IRQ-Problem mit 2.6.32 / 2.6.39-Kernel unter Debian Squeeze x86_64

4994
MasterM

Ich habe vor kurzem einen neuen Computer zusammengebaut, damit die gesamte Hardware ziemlich neu ist. Seitdem habe ich Probleme mit IRQs bei der Ausführung von Debian 6.0. Bei zufälligen Anlässen, normalerweise nach etwa einer Stunde Laufen, höre ich einen Piepton, und dieser zeigt sich in dmesg:

[ 3537.762795] irq 16: nobody cared (try booting with the "irqpoll" option) [ 3537.762797] Pid: 0, comm: swapper Tainted: P W O 2.6.39-2-amd64 #1 [ 3537.762798] Call Trace: [ 3537.762799] <IRQ> [<ffffffff810924d4>] ? __report_bad_irq+0x3a/0xa2 [ 3537.762803] [<ffffffff810926a4>] ? note_interrupt+0x168/0x1da [ 3537.762805] [<ffffffff81090dd4>] ? handle_irq_event_percpu+0x171/0x18f [ 3537.762807] [<ffffffff8100e0e2>] ? read_tsc+0x5/0x16 [ 3537.762809] [<ffffffff8106b8a2>] ? update_ts_time_stats+0x32/0x6b [ 3537.762810] [<ffffffff81090e26>] ? handle_irq_event+0x34/0x52 [ 3537.762812] [<ffffffff81063fb7>] ? sched_clock_idle_wakeup_event+0x12/0x1c [ 3537.762813] [<ffffffff81092df2>] ? handle_fasteoi_irq+0x82/0xa4 [ 3537.762815] [<ffffffff8100aadb>] ? handle_irq+0x1a/0x23 [ 3537.762816] [<ffffffff8100a384>] ? do_IRQ+0x45/0xaa [ 3537.762818] [<ffffffff81332c93>] ? common_interrupt+0x13/0x13 [ 3537.762818] <EOI> [<ffffffff81332c8e>] ? common_interrupt+0xe/0x13 [ 3537.762821] [<ffffffff81026800>] ? native_safe_halt+0x2/0x3 [ 3537.762829] [<ffffffffa016ed58>] ? acpi_idle_do_entry+0x39/0x62 [processor] [ 3537.762831] [<ffffffffa016edde>] ? acpi_idle_enter_c1+0x5d/0xad [processor] [ 3537.762834] [<ffffffff81261033>] ? cpuidle_idle_call+0x11f/0x1cc [ 3537.762835] [<ffffffff81008dd2>] ? cpu_idle+0xab/0xe1 [ 3537.762837] [<ffffffff8169fc60>] ? start_kernel+0x3e0/0x3eb [ 3537.762838] [<ffffffff8169f3c8>] ? x86_64_start_kernel+0x102/0x10f [ 3537.762839] handlers: [ 3537.762840] [<ffffffffa0358d5a>] (rtl8169_interrupt+0x0/0x2d7 [r8169]) [ 3537.762842] [<ffffffffa08ff2ca>] (nv_kern_isr+0x0/0x54 [nvidia]) [ 3537.762902] Disabling IRQ #16 

Danach frisst Xorg entweder die CPU oder ist instabil (bis das System komplett aufgehängt ist). Wenn ich Xorg neu starte, ist alles wieder in Ordnung und das Problem tritt erst beim nächsten Neustart auf.

Ich habe versucht, den Kernel von stock 2.6.32auf 2.6.39unstable repository zu aktualisieren, aber das hat nicht geholfen. Das Booten mit irqpollOption scheint nur die anfängliche Zeitspanne zu verlängern, nach der das Problem auftritt.

Ich verwende die neuesten NVIDIA-Treiber und die Realtek-Firmware aus dem firmware-realtekPaket. Ich habe zwei GTX 560Ti, die in SLI laufen. Das Deaktivieren von SLI oder das vollständige Herausnehmen einer Karte löst das Problem ebenfalls nicht.

Ausgabe von uname -aist:

Linux whitestar 2.6.39-2-amd64 #1 SMP Wed Jun 8 11:01:04 UTC 2011 x86_64 GNU/Linux 

Ausgabe von lspciist:

00:00.0 Host bridge: Intel Corporation Sandy Bridge DRAM Controller (rev 09) 00:01.0 PCI bridge: Intel Corporation Sandy Bridge PCI Express Root Port (rev 09) 00:01.1 PCI bridge: Intel Corporation Sandy Bridge PCI Express Root Port (rev 09) 00:16.0 Communication controller: Intel Corporation Cougar Point HECI Controller #1 (rev 04) 00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05) 00:1a.0 USB Controller: Intel Corporation Cougar Point USB Enhanced Host Controller #2 (rev 05) 00:1b.0 Audio device: Intel Corporation Cougar Point High Definition Audio Controller (rev 05) 00:1c.0 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 1 (rev b5) 00:1c.1 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 2 (rev b5) 00:1c.2 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 3 (rev b5) 00:1c.4 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 5 (rev b5) 00:1c.6 PCI bridge: Intel Corporation 82801 PCI Bridge (rev b5) 00:1d.0 USB Controller: Intel Corporation Cougar Point USB Enhanced Host Controller #1 (rev 05) 00:1f.0 ISA bridge: Intel Corporation Cougar Point LPC Controller (rev 05) 00:1f.2 SATA controller: Intel Corporation Cougar Point 6 port SATA AHCI Controller (rev 05) 00:1f.3 SMBus: Intel Corporation Cougar Point SMBus Controller (rev 05) 01:00.0 VGA compatible controller: nVidia Corporation Device 1200 (rev a1) 01:00.1 Audio device: nVidia Corporation Device 0e0c (rev a1) 02:00.0 VGA compatible controller: nVidia Corporation Device 1200 (rev a1) 02:00.1 Audio device: nVidia Corporation Device 0e0c (rev a1) 04:00.0 USB Controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04) 06:00.0 USB Controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04) 07:00.0 PCI bridge: Device 1b21:1080 (rev 01) 08:02.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL-8110SC/8169SC Gigabit Ethernet (rev 10) 08:03.0 FireWire (IEEE 1394): VIA Technologies, Inc. VT6306/7/8 [Fire II(M)] IEEE 1394 OHCI Controller (rev c0) 

Inhalt von /proc/interrupts:

CPU0 CPU1 CPU2 CPU3 CPU4 CPU5 CPU6 CPU7 0: 77 0 0 0 0 0 0 0 IO-APIC-edge timer 1: 2 0 0 0 0 0 0 0 IO-APIC-edge i8042 8: 1 0 0 0 0 0 0 0 IO-APIC-edge rtc0 9: 0 0 0 0 0 0 0 0 IO-APIC-fasteoi acpi 12: 4 0 0 0 0 0 0 0 IO-APIC-edge i8042 16: 699083 0 0 0 0 0 0 0 IO-APIC-fasteoi nvidia, eth0 17: 87810 0 0 0 0 0 0 0 IO-APIC-fasteoi firewire_ohci, hda_intel, nvidia 18: 242 0 0 0 0 0 0 0 IO-APIC-fasteoi hda_intel 23: 85925 0 0 0 0 0 0 0 IO-APIC-fasteoi ehci_hcd:usb5, ehci_hcd:usb6 40: 0 0 0 0 0 0 0 0 PCI-MSI-edge PCIe PME 41: 0 0 0 0 0 0 0 0 PCI-MSI-edge PCIe PME 42: 0 0 0 0 0 0 0 0 PCI-MSI-edge PCIe PME 43: 0 0 0 0 0 0 0 0 PCI-MSI-edge PCIe PME 44: 0 0 0 0 0 0 0 0 PCI-MSI-edge PCIe PME 45: 0 0 0 0 0 0 0 0 PCI-MSI-edge PCIe PME 46: 79853 0 0 0 0 0 0 0 PCI-MSI-edge ahci 48: 1 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 49: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 50: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 51: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 52: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 53: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 54: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 55: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 56: 1 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 57: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 58: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 59: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 60: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 61: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 62: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 63: 0 0 0 0 0 0 0 0 PCI-MSI-edge xhci_hcd 64: 173506 0 0 0 0 0 0 0 PCI-MSI-edge hda_intel NMI: 482 89 25 13 277 24 11 10 Non-maskable interrupts LOC: 783857 194752 114133 70577 372438 179065 117179 162016 Local timer interrupts SPU: 0 0 0 0 0 0 0 0 Spurious interrupts PMI: 482 89 25 13 277 24 11 10 Performance monitoring interrupts IWI: 0 0 0 0 0 0 0 0 IRQ work interrupts RES: 131917 46750 7432 3291 150003 9576 3435 3067 Rescheduling interrupts CAL: 2759 6563 7150 6997 5387 7140 7269 6678 Function call interrupts TLB: 4396 2038 1336 492 5434 1896 1121 606 TLB shootdowns TRM: 0 0 0 0 0 0 0 0 Thermal event interrupts THR: 0 0 0 0 0 0 0 0 Threshold APIC interrupts MCE: 0 0 0 0 0 0 0 0 Machine check exceptions MCP: 37 37 37 37 37 37 37 37 Machine check polls ERR: 0 MIS: 0 

Zu guter Letzt sind diese Zeilen direkt nach dem Booten normalerweise in vorhanden dmesg:

[ 18.367094] hda-intel: IRQ timing workaround is activated for card #1. Suggest a bigger bdl_pos_adj. [ 18.458859] hda-intel: IRQ timing workaround is activated for card #2. Suggest a bigger bdl_pos_adj. 

Ich bin mir nicht sicher, ob es sich um ein verwandtes Problem oder um ein Symptom für ein größeres Problem handelt. Ich poste es also nur für den Fall.

Ich weiß nicht wirklich, welche anderen Informationen hier relevant sein könnten. Zögern Sie nicht, in den Kommentaren nach mehr zu fragen.

2

4 Antworten auf die Frage

1
MasterM

Anscheinend habe ich endlich eine Lösung für dieses Problem gefunden.

Man muss pci=routeirqdem Kernel eine Boot-Option hinzufügen . Wie in der Dokumentation angegeben, wird Folgendes ausgeführt:

Führen Sie IRQ-Routing für alle PCI-Geräte durch. Dies wird normalerweise in pci_enable_device () durchgeführt. Daher ist diese Option eine temporäre Problemumgehung für defekte Treiber, die sie nicht aufrufen.

Es scheint, dass der NVIDIA Xorg-Treiber hier der Schuldige ist. Ich sollte wahrscheinlich einen Fehlerbericht einreichen.

0
LawrenceC

Nur eine Vermutung ... Gehen Sie in Ihr BIOS und deaktivieren Sie alles über Ihre "SERR" -Funktion. Sie können auch versuchen, ein Update auf einen späteren Kernel durchzuführen, wenn dies möglich ist.

Leider habe ich keine solche Option in meinem BIOS. Wenn es um Kernel geht, laufe ich 2.6.39, also ist die nächste Version 3.0.0, die sich noch im RC-Stadium befindet. MasterM vor 13 Jahren 0
0
ghost3k

Ich habe genau das gleiche Problem, wenn ich Debian 6.0 laufe, viele Kernel (2.6.32, 2.6.38, 2.6.39) und viele Kernel-Parameter ("irqpoll" oder "noapic") ausgemacht habe, aber "acpi =" off "machte das System manchmal für einige Tage nutzbar). Sie können also versuchen, mit "acpi = off" zu starten.

Mein Mainboard ist ein Asus P8H67-M EVO. Verwenden Sie auch ein Asus Mainboard mit einem Sandy Bridge-Chipsatz? Wenn ja, versuchen Sie auch, das BIOS zu aktualisieren, um das Problem möglicherweise zu beheben.

Ja, ich habe Asus P8P67 EVO mit einem Core i7 2600K. Ich habe kürzlich sowohl den BIOS- als auch den Linux-Kernel (3.0.0) auf die neueste Version aktualisiert, und das Problem schien leider nicht zu verschwinden. MasterM vor 13 Jahren 0
0
Eddie B

Gleiche Ausgabe hier Sandy Bridge läuft ...

Asus P-67 Sabertooth i7 2600k @ 3,4 nVidia Evga GTX 570 Debian Squeeze 2.6.39-bpo.2-amd64

Ich bekomme Kernel-Oopses, die IRQ 17 mit firewire_ohci und hda_intel auf 17 deaktivieren.

für das Protokoll ... Ich habe keine Nachrichten erhalten, seit ich noirqdebug zu command_line_linux_default in Grub hinzugefügt habe. Eddie B vor 12 Jahren 0