Laden Sie in der XML-Sitemap aufgelistete Webseiten herunter und aktualisieren Sie sie

470
unor

Ich suche ein FLOSS-Tool, das alle Seiten (und eingebetteten Ressourcen, z. B. Bilder), die in einer XML-Sitemap verlinkt sind, lädt (erstellt gemäß http://www.sitemaps.org/ ).

Das Tool sollte die Sitemap regelmäßig "crawlen" und nach neuen und gelöschten URLs und Änderungen im lastmodElement suchen . Immer wenn eine Seite hinzugefügt / gelöscht / aktualisiert wird, sollte das Tool die Änderungen anwenden.

Einige Sitemaps listen Sub-Sitemaps in sitemapindex→ auf sitemap. Das Tool sollte dies verstehen und alle verknüpften Sub-Sitemaps laden und dort nach URLs suchen.


Ich weiß, dass es Tools gibt, mit denen ich alle URLs aus der Sitemap extrahieren kann, um sie an wget oder ähnliche Tools weiterzuleiten (siehe zum Beispiel: Links aus einer Sitemap extrahieren (xml) ). Dies würde jedoch nicht hilfreich sein, um über Aktualisierungen von Seiten informiert zu werden. Das Verfolgen der Webseiten selbst auf Aktualisierungen funktioniert nicht, da "sekundärer" Inhalt auf den Seiten täglich geändert wird, jedoch lastmodnur aktualisiert wird, wenn sich der relevante Inhalt geändert hat.

0

1 Antwort auf die Frage

1
dotancohen

Haben Sie versucht, dies mit wget und cron zu schreiben? Sehen Sie sich die --spiderFlagge von Wget an . Es scheint alles zu sein, was Sie brauchen, außer cron, um es gelegentlich auszuführen.