Suchen und Kopieren aller Zeichenfolgen, die mit ("http: // www.") Beginnen, auf einer bestimmten Website (1000 Seiten)?

526
M Singh

Ich suche nach Links (keine URLs von Seiten), die in den Stellenanzeigen auf einer bestimmten Website enthalten sind. Ich möchte die Website scannen und alle Zeichenfolgen, die mit http oder www beginnen, auf ALLEN Seiten kopieren (ungefähr 1000).

Ich bin unter Windows 7. Ich weiß nicht, wie man Skripte ausführt. Kann jemand eine effiziente Vorgehensweise vorschlagen?

Muss ich zuerst alle HTML-Seiten herunterladen? Wenn ja, welche Software sollte ich dann zum Herunterladen, Scannen und Kopieren der Zeichenfolge verwenden?

-1
Sie müssen eine Beispiel-URL einer Seite angeben. Zum Beispiel könnten sie "http: //example.com/list.php? Page = n" sein, wobei n die Seitennummer ist. Eine andere Möglichkeit ist "http: // example.com / pagen.html", wobei wiederum n die Seitennummer ist. Es kann auch sein, dass es eine zentrale Liste aller Seiten gibt, die einzelnen Seiten-URLs jedoch keine Nummern enthalten. In diesem Fall könnte ein Skript alle URLs zum Testen von der Hauptseite abrufen, oder Sie müssen alle URLs manuell eingeben. Diese Art von Informationen ist erforderlich. Bob vor 12 Jahren 0
Die Website ist: www.sarkari-naukri.in; jetzt muss ich alle in Beiträgen genannten Links auf allen Seiten kopieren. M Singh vor 12 Jahren 0

3 Antworten auf die Frage

2
Valentin

Wenn wir bedenken, dass das Ausführen von Skripts für Sie keine Option ist, können Sie den Quellcode einer Seite herunterladen (Rechtsklick -> Quellcode herunterladen). Sie können es dann mit zB Notizblock öffnen und den Inhalt durch Drücken von [Strg] + [F] durchsuchen.

Eine andere Möglichkeit wäre die Verwendung des URLStringGrabber: http://www.nirsoft.net/utils/url_string_grabber.html

thx für die antwort valentin, aber ich muss die ganze website scannen und sie enthält ungefähr 1000 seiten. Die Quellcode-Option ist also out. jetzt durchsucht der urlstringgrabber auch nur die geöffnete seite. Wenn Sie 1000 Seiten einzeln öffnen, dauert dies eine lange Zeit. andere möglichkeiten? M Singh vor 12 Jahren 0
Ich würde das Web nach einem anständigen Werkzeug durchsuchen. Verwenden Sie bei Google den Suchbegriff "Website nach Links scannen", wenn Sie möchten. Dies sollte Ihnen die gewünschten Ergebnisse bringen. Valentin vor 12 Jahren 0
Erstellen Sie eine Website-Map http://www.xml-sitemaps.com und analysieren Sie die Ausgabe-XML-Datei integratorIT vor 12 Jahren 0
1
integratorIT

In Opera können Sie dies ganz einfach erreichen. Öffnen Sie dazu den linken Bereich - Links, und kopieren Sie alle in die Zwischenablage

hi pinger, ist das für die aktuell geöffnete seite? Ich muss die gesamte Website mit ca. 1000 Seiten scannen. M Singh vor 12 Jahren 0
0
wizzwizz4

Ich finde das Programm WinHTTrack für diesen Zweck nützlich. Es gibt eine Kombination von Optionen, mit denen Sie eine einzelne Seite herunterladen können, aber die URLs in ein bestimmtes, absolutes Format ändern, sodass Sie später den rohen HTML-Code durchsuchen können und für fast alle Links garantiert ist.

  1. Nachdem Sie den Spiegelnamen festgelegt und zum nächsten Bildschirm weitergeleitet wurden, ändern Sie die Aktion in "Website (s) herunterladen".
  2. Geben Sie die URL der Seite, die weitere Webseiten enthält, in das Feld "Webadressen: (URL)" ein.
  3. Wählen Sie Optionen -> Nur Experten
  4. Ändern Sie "Rewrite Links: internal / external" in "Absolute URI / Absolute URL" (oder, wenn Sie die Seite nur zum Verschrotten von URLs verwenden, "Absolute URL / Absolute URL").
  5. Drücken Sie OK, dann Weiter und navigieren Sie wie gewohnt durch die Optionen.

Weitere Informationen zu HTTrack finden Sie im Tag.