Haben Sie versucht, dies mit wget und cron zu schreiben? Sehen Sie sich die --spider
Flagge von Wget an . Es scheint alles zu sein, was Sie brauchen, außer cron, um es gelegentlich auszuführen.
Laden Sie in der XML-Sitemap aufgelistete Webseiten herunter und aktualisieren Sie sie
Ich suche ein FLOSS-Tool, das alle Seiten (und eingebetteten Ressourcen, z. B. Bilder), die in einer XML-Sitemap verlinkt sind, lädt (erstellt gemäß http://www.sitemaps.org/ ).
Das Tool sollte die Sitemap regelmäßig "crawlen" und nach neuen und gelöschten URLs und Änderungen im lastmod
Element suchen . Immer wenn eine Seite hinzugefügt / gelöscht / aktualisiert wird, sollte das Tool die Änderungen anwenden.
Einige Sitemaps listen Sub-Sitemaps in sitemapindex
→ auf sitemap
. Das Tool sollte dies verstehen und alle verknüpften Sub-Sitemaps laden und dort nach URLs suchen.
Ich weiß, dass es Tools gibt, mit denen ich alle URLs aus der Sitemap extrahieren kann, um sie an wget oder ähnliche Tools weiterzuleiten (siehe zum Beispiel: Links aus einer Sitemap extrahieren (xml) ). Dies würde jedoch nicht hilfreich sein, um über Aktualisierungen von Seiten informiert zu werden. Das Verfolgen der Webseiten selbst auf Aktualisierungen funktioniert nicht, da "sekundärer" Inhalt auf den Seiten täglich geändert wird, jedoch lastmod
nur aktualisiert wird, wenn sich der relevante Inhalt geändert hat.
1 Antwort auf die Frage
Verwandte Probleme
-
8
Anzeigen von XML im Chrome-Browser
-
3
IE unter Windows 7 speichert keine Dateien auf der Festplatte
-
3
Computer herunterfahren, wenn der Download / Upload beendet ist
-
4
Wo kann ich viele Ziffern von Pi herunterladen?
-
4
Konfigurieren Sie das Modem für Bittorrent-Downloads
-
3
Firefox: Warum ist es langsam, wenn ich einige aktive Downloads habe?
-
2
Anrufen, aber keine Seite mit wget herunterladen
-
17
Wie kann ich eine URL als Datei herunterladen?
-
2
Freigeben eines Unterverzeichnisses in robots.txt
-
19
Wie kann ich eine komplette Website herunterladen?