Wenn die Hashes identisch sind, bedeutet dies, dass der Inhalt der Datei 1: 1 ist.
Alle Dateien sind eine Sammlung von Bytes (Werte 0-255). Wenn zwei MD5-Hash-Dateien übereinstimmen, sind beide Bytesammlungen höchstwahrscheinlich genau gleich (gleiche Reihenfolge, gleiche Werte).
Es besteht eine sehr geringe Chance, dass zwei Dateien dasselbe MD5 erzeugen können, was ein 128-Bit-Hash ist. Die Wahrscheinlichkeit ist:
Wahrscheinlichkeit von nur zwei Hashes versehentlich kollidiert ist 1/2 128 der 1 ist in 340 Undecillion 282 decillion 366 nonillion 920 octillion 938 septillion 463 sextillion 463 Trillionen 374 Billi 607 Billionen 431 Milliarden 768 Millionen 211 Tausend 456. (von einer Antwort auf Stackoverflow .)
Hashes sollen nur in eine Richtung funktionieren - dh Sie nehmen eine Sammlung von Bytes und erhalten einen Hash, aber Sie können keinen Hash nehmen und eine Sammlung von Bytes zurückbekommen.
Kryptographie hängt davon ab (es ist eine Möglichkeit, zwei Dinge zu vergleichen, ohne zu wissen, was diese Dinge sind.)
Um das Jahr 2005 herum wurde entdeckt, dass Methoden einen MD5-Hash übernehmen und Daten erstellen, die diesem Hash entsprechen, und zwei Dokumente erstellen, die denselben MD5-Hash ( Kollisionsangriff ) hatten. Siehe den Kommentar von @ user2357112 unten. Dies bedeutet, dass ein Angreifer beispielsweise zwei ausführbare Dateien erstellen kann, die dasselbe MD5 haben, und wenn Sie von MD5 abhängig sind, um zu entscheiden, welchen vertrauenswürdigen Dateien Sie vertrauen, werden Sie getäuscht.
Daher sollte MD5 nicht für Kryptographie oder Sicherheit verwendet werden. Es ist schlecht, ein MD5 auf einer Download-Site zu veröffentlichen, um beispielsweise die Download-Integrität zu gewährleisten. Abhängig von einem MD5-Hash, den Sie nicht selbst erstellt haben, um zu überprüfen, ob Datei- oder Dateninhalte zu vermeiden sind.
Wenn Sie Ihre eigenen generieren, wissen Sie, dass Sie sich (hoffentlich) nicht böse sind. Für Ihre Verwendung ist dies in Ordnung, aber wenn Sie möchten, dass jemand anderes es reproduzieren kann und Sie den MD5-Hash öffentlich veröffentlichen möchten, sollte ein besserer Hash verwendet werden.
Beachten Sie, dass zwei Excel-Dateien möglicherweise dieselben Werte in denselben Zeilen und Spalten enthalten, der Bytestream der Datei jedoch aufgrund unterschiedlicher Formatierungen, Stile, Einstellungen usw. völlig unterschiedlich ist.
Wenn Sie die Daten in der Datei vergleichen möchten, exportieren Sie sie zuerst mit den gleichen Zeilen und Spalten in CSV, um die gesamte Formatierung zu entfernen, und vergleichen Sie dann die CSV-Werte.