Wie finde ich die Seiten, die auf eine bestimmte Seite verweisen?

1252
Norfeldt

Ich habe die folgende Seite

http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf

Ich möchte die Seiten auf www.fda.gov finden, die auf diese Seite verweisen. Wie kann ich das machen?

1
Was bedeuten _links zu dieser Seite_? Orte auf der FDA-Website, die auf diesen Link verweisen? Tim G. vor 7 Jahren 0
Orte auf der FDA-Website, die auf diesen Link verweisen, ja Norfeldt vor 7 Jahren 0
Mögliches Duplikat von [Suchen von Seiten auf einer Webseite, die einen bestimmten Link enthalten] (http://superuser.com/questions/1034567/findingpages -on-a-webpage-that-contain-a-certain-link) Norfeldt vor 7 Jahren 2

1 Antwort auf die Frage

2
MarkoPolo
  1. Sie können wgetdie gesamte Website rekursiv herunterladen:

    wget --recursive --page-requisites --html-extension --no-parent --domains www.fda.gov www.fda.gov

  2. Sie können dann egreprekursiv durch alle Dateien suchen, um herauszufinden, welche Seiten mit ucm092156.pdf verlinkt sind:

    egrep -r -o '*ucm092156.pdf' www.fda.gov/

Ich habe Mac und Windows .. kein Linux Norfeldt vor 7 Jahren 0
Homebrew verwenden, um Wget zu bekommen .. Norfeldt vor 7 Jahren 0
Bitte beachten Sie, dass Web-Admins möglicherweise nicht freundlich sind, Ihre Website abzureißen, insbesondere wenn Sie eine Verbindung mit hoher Bandbreite haben. Es ist durchaus möglich, dass Ihre IP-Adresse auf eine schwarze Liste gesetzt wird. Sie können auch das Flag "--limit-rate" angeben, um die Wahrscheinlichkeit dafür zu verringern. Mit --limit-rate = 100k wird beispielsweise die Downloadgeschwindigkeit auf 100 KB / s reduziert MarkoPolo vor 7 Jahren 0
und du sagst mir das jetzt ... es kratzt die Seite, während wir sprechen Norfeldt vor 7 Jahren 0
Übrigens habe ich festgestellt, dass `grep -rl '* ucm092156.pdf' www.fda.gov /` auf Mac dieselbe Aufgabe erfüllt. (Wartet immer noch darauf, dass der Download abgeschlossen ist, sieht aber bisher gut aus) Norfeldt vor 7 Jahren 1
Gibt es eine Möglichkeit, `.html'-Dateien nur zu kratzen? Es scheint alles herunterzuladen - einschließlich `.pdf'-Dateien Norfeldt vor 7 Jahren 0
Art von. Sie können bestimmte Dateien akzeptieren oder ablehnen. Dieser Vorgang findet jedoch statt, nachdem die Datei heruntergeladen wurde. Zum Beispiel nur für _keep_htm-Dateien: `-A '* .htm`` MarkoPolo vor 7 Jahren 0