Sammeln ext3 / 4-Dateisysteme auf natürliche Weise Fehler (wie von fsck gemeldet)?

378
Shovas

Ich betreibe eine Reihe von CentOS 6 64-Bit-Servern mit ext3 / ext4-Dateisystemen. Soweit ich das beurteilen kann, wurde keines von ihnen nicht ordnungsgemäß heruntergefahren, aber alle haben einige Dateisystemfehler gesammelt, die jetzt von fsck gemeldet werden.

Nun haben einige Laufwerke (nicht Dateisysteme) IO-Fehler, die zu Festplattenausfällen führen werden (wir führen raid1 aus). Führt dies zu Dateisystemfehlern? Ich würde nicht glauben, dass diese Fehler in das Dateisystem gelangen würden?

Mindestens einer zeigt keine Anzeichen für einen Festplattenausfall, hat aber fsck-Fehler.

Sammeln also ext3 / 4-Dateisysteme auf natürliche Weise Fehler im Laufe der Zeit oder ist etwas Schlimmes passiert?

3
Warum würden Sie denken, dass ein E / A-Fehler nicht mit einem Dateisystemfehler interagiert? Wenn der E / A-Fehler die Datei liest, was wird das Dateisystem Ihrer Meinung nach tun? - Es wird ein Fehler angezeigt, wenn die Datei nicht gelesen werden kann. Egal die Ursache. djsmiley2k vor 7 Jahren 0
Ohne weitere Details ist es schwer zu sagen, was genau passiert ist. ext3 ist ziemlich ausgereift, ich habe seit Jahren keine echten FS-Akkumulationsfehler mehr gesehen. Nicht behebbare E / A-Fehler (unwahrscheinlich für RAID 1) * führen * zu FS-Fehlern, wenn sie in der FS-Struktur auftreten. Wenn RAID 1 die Fehlerbehebung irgendwie verschraubt (keine persönlichen Erfahrungen damit haben), kann dies auch zu FS-Fehlern führen. Ich würde genau hinschauen, welche Blöcke Fehler hatten, wie sich Raid verhielt und welche Blöcke zu FS-Fehlern führten. dirkt vor 7 Jahren 0
Danke für die Antworten, @ djsmiley2k, @dirkt. Die von 'dmesg' gemeldeten E / A-Fehler beziehen sich auf die Geräteebene und nur auf einem Gerät. Ich dachte also, dass raid1 das richtige vom richtigen Gerät aus tun würde. Außerdem hat mindestens ein Server keine Laufwerksfehler, aber Dateisystemfehler. Shovas vor 7 Jahren 0
Ich nehme an, Sie verwenden mdadm oder einen Software-Raid, keinen Hardware-Raid? djsmiley2k vor 7 Jahren 0
@ djsmiley2k Ja, mdadm software raid1 mirror. Shovas vor 7 Jahren 0

2 Antworten auf die Frage

2
Theodore Ts'o

Dateisystemfehler verursachen keine E / A-Fehler, die keine Festplattenfehler verursachen. In der Tat haben Sie die Kausalität vollständig umgekehrt. Festplattenfehler verursachen E / A-Fehler, die zu Dateisystemschäden führen.

E / A-Fehler werden als Fehler an den Benutzerbereich gemeldet. In einigen Fällen kann es zu Dateisystemschäden kommen (was durch fsck behoben werden kann), in einigen Fällen kann dies jedoch nur zu Datenblockschäden führen.

Im Allgemeinen ist es also nicht "normal", dass Dateisystemschäden in ext3 / ext4-Dateisystemen erfasst werden. Das bedeutet im Allgemeinen, dass Sie ein Hardwareproblem haben. Es könnte ein Gedächtnisproblem sein. oder Festplattenfehler usw. Wenn Sie E / A-Fehler sehen, müssen Sie diese zuerst beheben. Softwarefehler verursachen im Allgemeinen keine Hardwarefehler!

Vielen Dank für Ihre Antwort, @Theodore. Ich erkenne Ihren Namen aus dem Lesen von Dateisystemen :) Ich habe meine Fragen klargestellt, um klar zu sein, dass FS-Fehler nicht zu Laufwerksausfällen führen. Ich meinte, würden Laufwerksfehler zu FS-Fehlern in einem mdadm raid1-Setup führen, bei dem ein Laufwerk gut ist? Auf jeden Fall müssen diese defekten Laufwerke ersetzt werden. In dediziertem Server-Hosting (z. B. 1und1.com) sind sie jedoch nicht darauf aus, Laufwerke für noch intakte Spiegel zu ersetzen: /. Shovas vor 7 Jahren 0
Kennzeichnung als Antwort zum Bestätigen, dass E / A - Fehler von physischen Geräten zu FS - Fehlern führen können: "E / A - Fehler werden als Fehler an den Benutzerbereich gemeldet. In einigen Fällen kann es zu Dateisystemschäden kommen (die durch fsck behoben werden können), jedoch in In einigen Fällen kann dies nur zu Datenblockschäden führen. " Ich muss zu dieser Zeit auf eine bessere Antwort gehofft haben, aber das beantwortet die Frage. Vielen Dank Shovas vor 6 Jahren 0
0
X.LINK

Ext3 ist ein absolut zuverlässiges Dateisystem, was für Ext4 nicht zutrifft (mehr vom Kernel abhängig)

Einige Fehler können jedoch durch lose Datenkabel / Anschlüsse oder sogar Vibrationen / Stöße auf der Festplatte verursacht werden (Schlagen des PC-Gehäuses mit den Füßen, Bewegen des Laptops usw.).

Wie viele Bugs in einem bestimmten Dateisystem codebase enthalten sind, hängt von der Kernel-Version ab. Im Allgemeinen ist ext4 jedoch genauso zuverlässig, wenn nicht zuverlässiger als ext3. In der Tat, als wir ext4 in der Produktion von Google einsetzten, bedeutete die Tatsache, dass es auf so vielen Maschinen lief und wir nach korrelierten Fehlern suchen konnten, dass wir einen Fehler in ext3 gefunden und behoben haben. Es war jedoch so selten, dass es mehrere Enterprise Linux-Zertifizierungstestprozesse überstand. (Es wurde fast sicher auf ext3 ausgelöst, wurde aber wahrscheinlich als Hardwarefehler abgeschrieben.) Theodore Ts'o vor 7 Jahren 4
Nun, das ist eine unerwartete Antwort, da Sie der ext3-Betreuer und einer der Ersteller von ext4 sind. Auf der anderen Seite wäre das sicherlich auch für ext4 der Fall, da es immer Fehler geben wird, die möglicherweise erst nach Jahren entdeckt werden Jetzt nicht für jede Software ... Aber obwohl ich mich jahrelang viel über die Linux-Welt informiert habe, wie kam es, dass ich - und auch viele Leute im Internet - nicht in 2.6 auf die Lösung des Hauptproblems von ext4 aufmerksam wurden .30 Kernel?!? Jedenfalls bleibe ich wegen seiner Reife immer noch bei ext3 und werde wahrscheinlich zu ext 4 wechseln, wenn die Leute zu btrfs springen ... X.LINK vor 7 Jahren 0