Wie gehe ich vor, wenn ich keine Ahnung habe, wo ich anfangen soll?

2755
Chris Walton

Ich suche nach Hinweisen, Tipps und Antworten, wie Sie mit der Problembehandlung beginnen können, wenn:

  1. Das Problem ist zeitweise
  2. Das Problem könnte buchstäblich irgendwo liegen - Betriebssystem; freie Quellensoftware; meine eigenen Softwareentwicklungen; gekaufte Software; Krümel auf der Tastatur; die spezifische Kombination von Software, die ich gerade ausführte; Maxwells Dämon; Die kleinen blauen Männer, die die Maschine tatsächlich betreiben, sind gestreikt. usw.
  3. Ich habe nur in einigen Bereichen Erfahrung, die potenzielle Kandidaten für die Ursache des Problems sind.

Das spezifische Problem, das ich habe, wird im Folgenden als Beispiel beschrieben. Ich suche jedoch nicht nach Antworten auf mein aktuelles Problem, sondern vielmehr, wo und wie man solche Probleme angeht.

Ich habe zurzeit ein Problem mit meiner neuen Maschine. In einigen Fällen ist die Maschine gerade eingefroren; keine Tastenanschläge, Mausklicks oder andere Dinge als den Ein- / Ausschalter akzeptieren. Ausnahmslos habe ich nur im Internet gesucht; Ich habe einige (<= 6 andere Anwendungen) ausgeführt. Keine dieser Anwendungen ist wichtig. und stellen eine Mischung aus kommerziellen Programmen und Open Source-Programmen dar, die in der Regel von Unix verschiedener Art migriert werden.

Mein Computer ist ein Quad-Core-Laptop mit Windows 7 I7.

BEARBEITEN:

Obwohl ich feststellte, dass die eigentliche Problembeschreibung nur ein Beispiel ist, konzentrieren sich einige Kommentare auf die Lösung dieses Problems. Da es sich nur um ein Beispiel handelt, sind die Angaben leider korrekt, aber nicht vollständig. Um zu vermeiden, dass die Leute ihre Zeit damit verschwenden, aus der Ferne zu versuchen, das eigentliche Problem zu lösen, gebe ich einige andere Informationen über meine Einrichtung. Wie ich ursprünglich sagte, suche ich keine Antworten auf dieses spezifische Problem.

Mein Computer ist ein leistungsstarker Laptop. ist meine Hauptmaschine; wird für Entwicklung und technisches Schreiben, Kommunikation - E-Mail, Web, FTP usw. sowie für die Bearbeitung und Indizierung von Fotos verwendet. Mindestens einmal im Monat wird ein rigoroses und umfangreiches Paket von Hardwaretestprogrammen durchgeführt, darunter CPU-Tests, mehrere Speichertests und Tests an allen anderen Komponenten. Mindestens einmal monatlich wird ein vollständiger Virenscan ausgeführt. ein vollständiger Spyware-Scan; eine Datenträgerbereinigung; und eine Defragmentierung der Festplatte.

Die Diskette enthält ungefähr 3 * 10 ^ 6 Dateien; Die Festplattennutzung beträgt 300 GB, wobei 150 GB frei sind. Der Speicher beträgt 8 GB. Während die Maschine etwas warm werden kann, wenn ich eine ganze Reihe von wichtigen Entwicklungswerkzeugen verwende, bin ich nur auf das Problem gestoßen, wenn ich die Maschine sehr leicht verwende - Web-Browsing plus Textpad plus Graphwiz plus Firebird-Datenbank plus leichtgewichtigem Datenbank-Browser (Flame Robin) ). Unter diesen Umständen ist selbst der Lüfter nicht leicht warm. Ich habe in dem Zeitraum, in dem das Problem aufgetreten ist, keine Änderungen an Software, Betriebssystem oder Hardware vorgenommen. Es gab eine Reihe von automatischen Updates - Microsoft, Adobe und Lenovo meistens, jedoch nicht ausschließlich.

Dieser Hintergrund setzt meine Gründe dafür in Zusammenhang (ich hoffe), wie ich diese Frage gestellt habe. Ich werde jetzt mit der Untersuchung der verschiedenen Protokolle beginnen, die in den Antworten erwähnt wurden, um den Untersuchungsbereich einzugrenzen. Und ich werde eine Übung ausprobieren, die in den Antworten, die ich bis jetzt erhalten habe, als Gedanke vorgeschlagen wird.

39
+1 Weil diese Frage für mich in der Zukunft nützlich sein kann. Tom Wijsman vor 13 Jahren 5
Bevor Sie mit einem vollständigen, methodischen Problemlösungsansatz beginnen, sollten Sie manchmal versuchen, die übliche, niedrig hängende Frucht zu durchforsten: Führen Sie einen vollständigen Spyware-Scan durch, durchsuchen Sie das Windows-Protokoll nach unerwartetem Herunterfahren und prüfen Sie, ob (falls) Probleme aufgetreten sind Wenn der Festplattenspeicherplatz ausreicht, überprüfen Sie die Festplatte, geben Sie den Autoruns von Sysinternal einen schnellen Scan nach unbekannter / verdächtiger Software. Verwenden Sie ein einfaches Set von Tools, mit denen Sie schnell eine Vielzahl von Hardware- und Softwareproblemen identifizieren können. Wenn sie nichts finden, haben Sie wenig Zeit verloren und können einen gründlicheren Prozess beginnen. Alain vor 13 Jahren 2
Folgen Sie auch [Mark's Blog] (http://blogs.technet.com/b/markrussinovich/), um Beispiele zu finden, wie ärgerliche Probleme mit Sysinternals behoben werden. Tom Wijsman vor 13 Jahren 1
Viel Glück bei der Fehlerbehebung, ich würde vorschlagen, eine neue Frage zu erstellen, wenn Sie mehr Feedback benötigen, um die Dinge zu organisieren ... Tom Wijsman vor 13 Jahren 1

4 Antworten auf die Frage

42
Tom Wijsman

Holen Sie sich eine bessere Idee.

Ohne ausreichende Feldinformationen werden Sie keine Schlacht gewinnen.

  1. Beschreibe dein Problem im Detail, damit du eine gute Vorstellung davon hast, wer weiß, dass es nur einmal passiert.

  2. Verfolgen Sie in der Zeit, was vor und zusammen mit dem Problem passiert ist, sowohl Sie als auch Ihr Computer.

  3. Denken Sie an die möglichen Ursachen, weil es manchmal etwas ist, das nicht offensichtlich ist.

  4. Informieren Sie sich immer dann, wenn Sie keine Ahnung haben, was passiert. Dies kann von Ereignissen über SysInternals-Tools über Performance-Analyse bis hin zu Debugging und anderen Tools in Ihrem Fachwissen reichen .

  5. Testen Sie Ihre Annahmen, um sicherzustellen, dass Ihre Gedanken die Ursache nicht wegfiltern.

Teilen und erobern.

Denn so besiegt das Militär seinen Gegner, auch wenn es in der Unterzahl ist.

Beseitigen Sie die möglichen Ursachen, oder Sie haben ein Problem, wenn Sie das Problem im Auge behalten. Auf diese Weise werden Sie der eigentlichen Ursache des Problems immer näher und näher kommen. Dadurch können Sie das Problem viel einfacher lösen.

Trennen Sie zum Beispiel bei Hardware alles, was Sie nicht zur Behebung Ihres Problems benötigen. Auf diese Weise trennen Sie möglicherweise die Komponente, die das Problem verursacht. Und dann müssen Sie wieder die Hälfte der Komponenten einfügen, überprüfen, ob sie erneut auftritt, und das Aufteilen wiederholen, bis Sie die fehlerhafte Komponente haben ...

Wenn Sie etwas auf einem anderen Computer testen, ist dies auch ein guter Vorteil bei der Lösung des Problems.

Wenn Sie zum Beispiel mit Software einen Neustart im abgesicherten Modus durchführen, ist es auch hilfreich, Starteinträge zu deaktivieren. Dies gilt auch für das Aktivieren / Deaktivieren von Einstellungen, das Ausprobieren der Standardkonfiguration usw.

Lassen Sie uns es auf die Probe stellen.

Ich habe zurzeit ein Problem mit meiner neuen Maschine. In einigen Fällen ist die Maschine gerade eingefroren; keine Tastenanschläge, Mausklicks oder andere Dinge als den Ein- / Ausschalter akzeptieren. Ausnahmslos habe ich nur im Internet gesucht; Ich habe einige (<= 6 andere Anwendungen) ausgeführt. Keine dieser Anwendungen ist wichtig. und stellen eine Mischung aus kommerziellen Programmen und Open Source-Programmen dar, die in der Regel von Unix verschiedener Art migriert werden.

  1. Das ist eine richtige Beschreibung für sich, sie passiert auch nicht nur einmal .

  2. Sie wissen, was zusammen mit dem Problem passiert ist
    , haben jedoch nicht an Dinge gedacht, die Sie oder Ihr Computer vor dem Problem gemacht haben .

    Ich kann das nicht sagen, aber Sie können es Ihrem Ereignisprotokoll und den kürzlich geänderten Dateien / Ordnern mitteilen.

  3. Mögliche Ursache ist höchstwahrscheinlich CPU-bezogen, da die Komponente Dinge verarbeitet.

    Genauer gesagt könnte dies ein Prozess, ein Treiber oder eine fehlerhafte Hardware sein (möglicherweise Temperaturprobleme?).

  4. Ich weiß, dass es CPU ist, weiß aber nicht was. Ereignisse zeigen dies nicht an, Prozess-Explorer würde an DPC hängen .

    Im nächsten Schritt lasse ich die Spurenanalyse laufen, die ich nach dem Hang schließt.

    Ich schaue in die Spur und sehe, dass Treiber X das Problem verursacht !

  5. Es werden keine echten Annahmen gemacht. Die CPU-Annahme wird durch unseren Divide & Conquer-Ansatz behandelt ...

Also, hier fange ich an zu teilen, um das Problem zu überwinden, halte ich einmal gelöst:

  1. Problem mit der aktuellen Version des Treibers?
    Aktualisieren Sie den Treiber auf die neueste Version.

  2. Problem mit neuesten Treiberversionen?
    Holen Sie sich eine neue Spur. Aktualisieren Sie den Treiber auf eine ältere als die ursprüngliche Version.

  3. Problem mit dem Gerät? Konfigurationsproblem in der Registry?
    Holen Sie sich eine neue Spur. Installieren und / oder deaktivieren Sie das Gerät nach Möglichkeit.

  4. Problem ist zufällig, heizt der Prozessor auf?
    Überprüfen Sie die Prozessortemperatur und tauschen Sie ggf. den Lüfter aus.

  5. Problem ist nicht der Prozessor, gibt es andere Hardware- und Softwareeinflüsse?
    Entfernen Sie die Hardware und deaktivieren Sie die Ausführung der Software, um den Einfluss von Drittanbietern festzustellen.

  6. Das Problem liegt nicht in einem abnehmbaren Teil, es sollte ersetzt werden.
    Im schlimmsten Fall, wenn alles andere fehlschlägt, müssen Sie einen Ersatz anfordern.

Wenn Sie neue Spuren finden und Hardware entfernen, erhalten Sie weitere Informationen, sodass wir wissen, wo Sie als Nächstes suchen müssen.

+1 zum Teilen und Erobern. Akzeptiert für die Spezifikation der Beschreibung, Rückverfolgung und Mechanismen zum Teilen und Beseitigen des Problems. Chris Walton vor 13 Jahren 4
+1 Brillante Antwort. Das Einzige, was Sie hinzufügen müssen, ist Folgendes: Testen Sie Ihre Annahmen Bevan vor 13 Jahren 5
Wie wäre es mit "eine Sache auf einmal ändern"? Florenz Kley vor 13 Jahren 0
@Florenz: Nun, durch die Teilung nimmst du sie entweder einzeln (für eine kleine Anzahl oder wenn du dich nicht auf mehrere Ursachen stützen kannst) oder du teilst sie auf (für eine größere Anzahl, wenn du mehrere Dinge überprüfen kannst.) Die Aufteilung in Hälften ist, wenn möglich, schneller als eine nach der anderen. Um beispielsweise 100 Dinge zu behandeln, müssen Sie sie nur achtmal testen (100-> 50-> 25-> 13-> 7->) 4-> 2-> 1) statt 100-mal ... Tom Wijsman vor 13 Jahren 2
sinnvolle Einteilung! Was ich damit sagen wollte ist "Sachen nicht schneller reparieren, als Sie einem beobachteten Delta eine Änderung zuordnen können". Ein Laborbuch mit Seiten, die ich nicht herausreißen kann, ist meine Methode, um sicherzustellen, dass ich es kann. Florenz Kley vor 13 Jahren 2
6
JRobert

Gute Logs und Intuition - wirklich.

  • Verfolgen Sie ab dem ersten Tag alle Aktivitäten, die Sie gegenüber dem System durchführen: App- und Betriebssystem-Updates, neue Installationen, neue oder entfernte Hardware oder Verbindungen, das Gewitter, das "kein Problem verursacht hat".
  • Wenn Sie das Problem zum ersten Mal bemerkt haben:
    • Was hast du gemacht?
    • Was ist in letzter Zeit noch ungewöhnlich passiert?
    • Was hast du in letzter Zeit anders gemacht?
    • Von da an sollten Sie sich darüber im Klaren sein, was Sie tun, damit Sie das nächste Mal, wenn Sie es tun, einen besseren Überblick darüber haben, was gerade geschehen ist.
    • Schnappschuss der Systemprotokolle.
  • Sehen Sie, ob Sie es reproduzieren können. Bis Sie es reproduzieren können, können Sie es nicht finden.
  • Starten Sie die Partitionierung des Systems: abgesicherter Modus vs. Live-Betrieb, neues Konto im Vergleich zu Ihrem regulären Konto, andere Tastatur und Maus als Ihre regulären (insbesondere Bluetooth oder drahtgebundene). Tritt dies innerhalb weniger Minuten nach dem Starten oder Aufwachen auf? erst nach einer stunde mehr laufen (thermisch denken).
+1 für die Protokollierungsaktivität; und für die Intuition. Nicht die akzeptierte Antwort, nur weil die Protokollierung nur von Tag 1 an gut ist. Ich habe Protokolle geführt, aber nicht ausreichend detailliert. und enthalten keine Systemupdates von Microsoft und andere automatisierte Updates. Chris Walton vor 13 Jahren 2
@ ChrisWalton: Es gibt detaillierte Protokolle für Windows Update, das Einfügen / Entfernen von Geräten, die Treiberinstallation usw. Siehe "C: \ Windows \ *. Log", "C: \ Windows \ Logs", "C: \ Windows \ inf \ *. Log" sowie "Systemmonitor> Datensammlersätze> (Startup) Event Trace Sessions" . Auch @JRobert, +1 für eine detailliertere Erklärung, wie man eine Idee bekommt ... Tom Wijsman vor 13 Jahren 1
4
Dave M

Normalerweise beginne ich mit den Ereignisprotokollen und allen Protokollen, die ein Programm möglicherweise selbst erstellt. Programme werden manchmal ein Protokoll im Programmordner erstellen.

Wenn Sie die Uhrzeit ermittelt haben, durchsuchen Sie die Protokolle nach Ereignissen. Natürlich können Windows-Protokolle Stop-Fehler enthalten, die leicht zu identifizieren sind.

Überprüfen Sie alle Treiber und stellen Sie sicher, dass sie aktuell sind.

Geduld wird auch in großen Dosen benötigt.

2
Matt

Abgesehen von all den guten Ratschlägen, die bereits gegeben wurden, lohnt sich ein ordnungsgemäßer Speichertest des Computers oft, wenn Protokolldateien nicht viel weiterbringen, da fehlerhafter Speicher alle möglichen seltsamen intermittierenden Stürze und Abstürze verursachen kann. Der eingebaute Speichertest ähnelt mehr einer Speicheranzahl. Es ist äußerst selten, dass der Power-On-Test einen Speicherfehler feststellt.

Google für Windows Speicherdiagnose und brennen Sie es auf eine CD. Es ist alt, aber es ist einer der besseren Speichertests und es ist kostenlos.

Vielen Dank für Ihre Antwort und das vorgeschlagene Tool. Ich fürchte, Sie haben den Punkt meiner Frage eher verpasst - Sie schlagen Gedächtnistest vor; jemand anderes schlug automatische Downloads von Adobe vor. Meine Frage war; Wie entscheiden Sie unter diesen Umständen, was zu tun ist, wenn es viele Möglichkeiten gibt? Chris Walton vor 13 Jahren 0
@Chris: Wie gesagt; Bei der Behebung von zeitweiligen und unerklärlichen Problemen (in einer Entwicklungssituation, in der es keine Entwicklung gibt), wenn kein Protokoll vorhanden ist und keine anderen Markierungen für den Startort angegeben werden, würde ich einen Speichertest ausführen. Die Logik ist, dass es relativ schnell läuft, verglichen mit dem Versuch, ein zeitweiliges Problem zu replizieren. Sobald Sie ausgeschlossen sind, beginnen Sie mit der Verengung und bekommen eine Idee, wie TomWij es formuliert. Matt vor 13 Jahren 1
Meinetwegen. Chris Walton vor 13 Jahren 0