Überwachen Sie einen Monat lang mehr als 1000 Websites auf Änderungen

503
Sulad

Ich muss 1000+ spezifische Links für etwa einen Monat überwachen, um zu sehen, ob sich deren Inhalt geändert hat, und ich frage mich, ob ich dies irgendwie automatisieren kann. Eine Idee war, diese Webseiten einfach ab und zu in einem Monat herunterzuladen und die Quelldateien zu vergleichen. Wenn Sie diesen Weg beschreiten, kennen Sie ein Werkzeug (Browsererweiterung?), Das einen solchen Download erleichtert? Ich habe HTTrack ausprobiert, aber es schlägt nach den ersten 100 Links oder so fehl. Alternativ kann auch ein (kostenloser?) Webservice funktionieren, der eine Reihe von Websites überwachen kann. Ich habe vorher https://visualping.io/ verwendet, aber es ist nicht wirklich für Tausende von Links gedacht.

1
Seien Sie genauer als nur "es scheitert", es könnte tatsächlich ein mögliches Werkzeug sein. Alternativ können Sie curl, einen Download-Manager oder was auch immer verwenden. Ja, Sie können dies automatisieren. Seth vor 5 Jahren 0
`javascript: alert (document.lastModified)`? Akina vor 5 Jahren 0
Sie können versuchen, `curl` und die Ausgabe in eine Datei zu verwenden und dann jeden Tag einen` diff` zwischen den Dateien auszuführen. Um Ihre Links zu automatisieren, fügen Sie die Links in eine Datei ein und verwenden Sie ein Skript, um jede Zeile als Variable einzulesen. Dann durchlaufen Sie einfach alle und erhalten die Quelldateien. Dann können Sie die aktuellen Tagesdateien einfach mit dem Tag vor dem Tag vergleichen und auf die Art und Weise benachrichtigen, in der Sie sich für angemessen halten. Dann können Sie die Quelldateien des vorherigen Tages als eine Art Bereinigung löschen. Dies ist eine Art minimaler Ansatz für externe Tools. Denken Sie jedoch daran, dass Windows default "curl" ein Powershell-Alias ​​für einen anderen Befehl ist, sodass Sie eine Linux-Curl benötigen Gytis vor 5 Jahren 0

1 Antwort auf die Frage

1
RedGrittyBrick

Ich frage mich, ob ich das irgendwie automatisieren kann.

Kaum notwendig, aber ja, Sie könnten ein paar einfache Skripte schreiben.

Kennen Sie ein Werkzeug, das einen solchen Download einfach macht?

wget, curl usw

Sie können die 1000 spezifischen URLs in eine Textdatei einfügen, zwei Verzeichnisse erstellen, cd in das erste Verzeichnis einfügen und ein Tool verwenden, z. B. wgetmit der -iOption, die Liste der URLs zu lesen und abzurufen. Ein Monat später wiederholt dies im zweiten Verzeichnis, verwenden Sie diff zB diff -r /directory1 /directory2alle Änderungen zu finden.


Seien Sie vorsichtig bei der Verwendung rekursiver Optionen. Sie können den Server überfordern und verbannen oder Ihren Computer überlasten.

Ich würde es zuerst mit einem kleinen Satz URLs versuchen (zB 2, dann 10, dann 1000).


Eine kostengünstigere Option kann die Verwendung von HTTP-HEAD-Anforderungen sein und darauf vertrauen, dass der Server weiß, ob eine Ressource geändert wurde.

Siehe Wget HEAD-Anfrage?