So rufen Sie Dateien nach MIME-Typ mit Wget ab

490
Lance Pollard

Einige URLs sind wie folgt:

/foo/bar 

Darin haben sie keine Erweiterung wie diese:

/foo/bar.txt 

Wenn es eine Erweiterung gibt, ist es einfach:

wget -r -A .txt http://asdf.com 

Andernfalls bin ich nicht sicher, wie ich die Dateien abrufen soll. Grundsätzlich gibt es einige Dateien wie PDFs oder andere Dinge, die sich in einem Pfad befinden, /0du8qj8quqjc9ohne Erweiterung oder sogar sogar /download.php?pdf=124u0cje8u. Die Frage ist, wie diese Dateien nur heruntergeladen werden können , wenn sie mit einem Mime-Typ übereinstimmen . Also zum Beispiel so etwas:

wget -r --accept-mime text/plain,application/pdf http://asdf.com 

Ich frage mich, ob es so etwas zu tun gibt.

0

1 Antwort auf die Frage

1
Tim Ruehsen rockdaboot

Wget2 hat dieses Feature bereits :-)

--filter-mime-type Specify a list of mime types to be saved or ignored`  ### `--filter-mime-type=list`  Specify a comma-separated list of MIME types that will be downloaded. Elements of list may contain wildcards. If a MIME type starts with the character '!' it won't be downloaded, this is useful when trying to download something with exceptions. For example, download everything except images:  wget2 -r https://<site>/<document> --filter-mime-type=*,\!image/*  It is also useful to download files that are compatible with an application of your system. For instance, download every file that is compatible with LibreOffice Writer from a website using the recursive mode:  wget2 -r https://<site>/<document> --filter-mime-type=$(sed -r '/^MimeType=/!d;s/^MimeType=//;s/;/,/g' /usr/share/applications/libreoffice-writer.desktop) 

Wget2 ist seit heute nicht veröffentlicht, wird aber bald verfügbar sein. Debian Unstable hat bereits eine Alpha-Version ausgeliefert.

Weitere Informationen finden Sie unter https://gitlab.com/gnuwget/wget2 . Sie können Fragen / Kommentare direkt an bug-wget@gnu.org senden.