Web-Crawler mit Option zum Konvertieren von Links

318
qballer

Ich möchte eine Backup-Site crawlen, auf die ich keinen Zugriff habe. Die Website ist in subdomain.somesite.com gesichert, während die Links auf der Website www.subdomain.com sind

Dies führt zu folgender Situation:

Der Link http://subdomain.somesite.com/?page_id=number funktioniert, aber der Link in der eigentlichen HTML-Datei ist http://www.subdomain.com/?page_id=number und funktioniert nicht.

Irgendwelche Ideen, wie man das macht, ohne einen benutzerdefinierten Crawler zu schreiben?

Ich habe Zugriff auf www.subdomain.com, das sich auf Wordpress befindet. Eine Idee ist, alle Seiten mit dem Muster /? Page_id = Nummer umzuleiten.

Beispiel. http://www.subdomain.com/?page_id=255 führt zu http: //subdomain.somedomain/? page_id = 255

1

2 Antworten auf die Frage

1
Martin

Wenn es Ihr Problem ist, Anforderungen von www.subdomain an subdomain.somedomain umzuleiten, können Sie RewriteRule in Apache oder ähnliche Implementierungen in anderen Webservern verwenden. Sie können den Proxy-Parameter P verwenden, um die Site vom WWW aus zu bedienen. Domäne und lassen Sie den Webserver es von der Backup-Site im Nu holen.

Wenn Sie den Inhalt wgetcrawlen und ändern möchten, ist die einfachste Lösung die Spiegeloption (verfügbar unter Linux, Windows ...). Es kann ausreichend sein, die eingebauten Funktionen zu verwenden, um absolute Links in relative Links umzuwandeln. Andernfalls verwenden Sie einfach ein Such- und Ersetzungsprogramm oder einen regulären Ausdruck, um die Domäne im heruntergeladenen Ordner zu ändern.

0
Schwertspize

Gnu Wget kann es tun. Die Option -rist für rekursiven Download, -kkonvertiert die Links. Weitere Informationen finden Sie in der Manpage