Ich mache das gerade jetzt. Hier ist der Befehl, den ich verwende:
wget -k -m -E -p -np -R memberlist.php*,faq.php*,viewtopic.php*p=*,posting.php*,search.php*,ucp.php*,viewonline.php*,*sid*,*view=print*,*start=0* -o log.txt http://www.example.com/forum/
Ich wollte diese lästigen Session-Id-Sachen herausnehmen (sid = blahblahblah). Sie scheinen automatisch von der Indexseite hinzugefügt zu werden und werden dann auf virenartige Weise an alle Links angehängt. Abgesehen von einem Eichhörnchen, das mit einer einfachen index.php verbunden ist. (Vielleicht gibt es eine Möglichkeit, das rekursive Wget von index.php aus zu starten - ich weiß es nicht).
Ich habe auch einige andere Seiten ausgeschlossen, die dazu führen, dass viel Cruft gespeichert wird. Insbesondere memberlist.php und viewtopic.php, in denen p = angegeben ist, können Tausende von Dateien erstellen!
Aufgrund dieses Fehlers in wget http://savannah.gnu.org/bugs/?20808 wird immer noch eine erstaunliche Anzahl dieser unbrauchbaren Dateien heruntergeladen - vor allem, wenn sie gelöscht werden. Das wird also viel Zeit und Bandbreite brennen.