Sie werden nicht archiviert.
Das Internetarchiv hat keinen Zugriff auf die serverseitige Logik einer Website und kann das Verhalten dynamischer Seiten (in diesem Fall PHP) nicht vollständig replizieren. Am besten folgen Sie den Links und laden jede bekannte URL als unabhängige, statische Seite herunter.
Der Crawler kann direkte Links wie z <a href="news.php?page=2">
. Die "Nächste" / "Alle anzeigen" - Website Ihrer Website sind jedoch keine regulären Links. Sie sind eine unheilige Kombination aus JavaScript-Aktionen und POST-basierten Formularen. Beide hätten den Crawler allein nicht als Link erkannt.
<a href="#" onclick="JavaScript:nextPage()"><img src=...></a>
Obwohl der Archivierer eine Kopie des clientseitigen JavaScript-Codes speichern kann, interpretiert er diesen Code nicht und versteht auch nicht, was nextPage () hier tut. Daher müssen diese JS-basierten Schaltflächen vollständig übersprungen werden. (Sie können sehen, dass in IA nur diese eine URL archiviert ist .)
(Selbst wenn der Archivierer herausfinden könnte, was der JS-Code bewirkt, kann er dieses Formular sowieso nicht berühren. Die Verwendung von POST impliziert, dass jede Anforderung einige Änderungen auf dem Server verursachen kann. Nur GET-Anforderungen können automatisch gecrawlt werden .)
Wenn Sie also auf die Schaltfläche "Weiter" klicken, führt der Browser nextPage () immer noch aus und sendet eine Anfrage mit page = 2 oder so, aber es gibt keinen entsprechenden serverseitigen Code, um diese Anfrage zu verarbeiten - das Archiv kann nur mit der dieselben statischen Daten wie zuvor.