Wie kann ich auf versteckte Daten auf einer archivierten Website zugreifen?

411
Seelentau

Vor diesem Hintergrund habe ich absolut keine Kenntnisse in Bezug auf die Programmierung. Ich möchte auf die 17 Daten zugreifen, die nicht auf dieser archivierten Website angezeigt werden: https://web.archive.org/web/20031002051647/http://www.avengedsevenfold.com:80/tourdates/tourdates.php (und natürlich die versteckten Daten zu älteren / neueren Versionen dieser Website)

Wenn ich auf "Weiter" oder "Alle Daten anzeigen" klicke, wird die Website einfach neu geladen. Gibt es eine Möglichkeit, auf die Daten zuzugreifen? Ich habe den Quellcode durchgesehen, aber nichts gefunden. Aber die Termine müssen irgendwo sein, oder?

-3

1 Antwort auf die Frage

1
grawity

Sie werden nicht archiviert.

Das Internetarchiv hat keinen Zugriff auf die serverseitige Logik einer Website und kann das Verhalten dynamischer Seiten (in diesem Fall PHP) nicht vollständig replizieren. Am besten folgen Sie den Links und laden jede bekannte URL als unabhängige, statische Seite herunter.

Der Crawler kann direkte Links wie z <a href="news.php?page=2">. Die "Nächste" / "Alle anzeigen" - Website Ihrer Website sind jedoch keine regulären Links. Sie sind eine unheilige Kombination aus JavaScript-Aktionen und POST-basierten Formularen. Beide hätten den Crawler allein nicht als Link erkannt.

<a href="#" onclick="JavaScript:nextPage()"><img src=...></a> 

Obwohl der Archivierer eine Kopie des clientseitigen JavaScript-Codes speichern kann, interpretiert er diesen Code nicht und versteht auch nicht, was nextPage () hier tut. Daher müssen diese JS-basierten Schaltflächen vollständig übersprungen werden. (Sie können sehen, dass in IA nur diese eine URL archiviert ist .)

(Selbst wenn der Archivierer herausfinden könnte, was der JS-Code bewirkt, kann er dieses Formular sowieso nicht berühren. Die Verwendung von POST impliziert, dass jede Anforderung einige Änderungen auf dem Server verursachen kann. Nur GET-Anforderungen können automatisch gecrawlt werden .)

Wenn Sie also auf die Schaltfläche "Weiter" klicken, führt der Browser nextPage () immer noch aus und sendet eine Anfrage mit page = 2 oder so, aber es gibt keinen entsprechenden serverseitigen Code, um diese Anfrage zu verarbeiten - das Archiv kann nur mit der dieselben statischen Daten wie zuvor.