Neue Fragen mit dem Tag «web-crawler»

Insgesamt gefunden 67 Fragen

0
Bewertungen
0
Antworten
414
Ansichten

Verwendung von wget parallel, da es nicht multithreading ist

Ich muss rund 1M Webseiten herunterladen. Ich habe ihre direkten URLs (in der Datenbank, aber ich kann sie an anderer Stelle in jede Art von Speicher, Datenbank oder Datei einfügen). Ich habe wget ausprobiert, aber ich möchte wget nicht in den Hintergrund stellen und mit einem Kontrollskript umwicke...
fragte David Strejc vor 5 Jahren

1
Bewertungen
0
Antworten
311
Ansichten

Jede Chrome-Erweiterung oder jedes Plugin kann die angezeigten Webseiten automatisch speichern?

Ich bin auf der Suche nach einer Software- oder Browsererweiterung (besser mit Chrome), mit der alle Webseiten, die ich automatisch auf lokaler Ebene angezeigt habe, gespeichert werden. Soweit ich weiß, gibt es mit Firefox einen Namen namens ScrapBook, unterstützt aber nach 60 nicht mehr Firefox.
fragte Eric Wang vor 5 Jahren

2
Bewertungen
2
Antworten
457
Ansichten

Ist eine Website, die nirgendwo verlinkt ist, vollständig verborgen?

Ich möchte eine Webseite erstellen, auf die nur ich und eine andere Person zugreifen können. Ich möchte keine Authentifizierung verwenden (Benutzername / Passwort, Zertifikate usw.). Meine Frage ist: Wenn ich die Website von meinem eigenen Webserver aus bereitstelle und den Inhalt nicht im Stammverz...
fragte Cheesegraterr vor 5 Jahren

1
Bewertungen
1
Antwort
330
Ansichten

Wie kann man eine große Liste von URLs crawlen?

Ich habe eine riesige Liste von URLs. Es sieht ungefähr so ​​aus: www.example.com/api/users/1.json www.example.com/api/users/2.json www.example.com/api/users/3.json Und fährt etwa 400.000 Mal fort. Ziel ist es, auf allen Seiten eine bestimmte Textzeichenfolge zu finden. Weiß jemand, wie ich das mac...
fragte DangerBob Gaming vor 5 Jahren

1
Bewertungen
0
Antworten
446
Ansichten

Wie kann ich eine Website rekursiv herunterladen, die sich hinter Google auth befindet?

Ich möchte eine Website rekursiv herunterladen, die sich hinter Google auth befindet. Ich habe im Chrome-Store viele Links gefunden, mit denen ich die aktuell geöffnete Webseite herunterladen kann, aber keiner von ihnen folgt Links. Irgendwelche Tipps? Wget- und Desktop-Apps funktionieren nicht, da...

0
Bewertungen
0
Antworten
488
Ansichten

Minimaler Speicherverbrauch in kopflosem Firefox?

Ich plane, einen Bot in vielen separaten parallelen Instanzen auszuführen, und möchte den Speicherbedarf auf einem Minimum halten. Der Bot benötigt nur funktionelles JS und das Laden der Seite, aber nichts Grafisches. Es wird immer nur eine einzige Registerkarte verwendet. Gibt es Einstellungen, die...

0
Bewertungen
1
Antwort
321
Ansicht

Wie führt man eine Batch-Eingabe von einem Webserver aus durch?

Ich versuche, eine Proteinstrukturdatei (z. B. diese ) auf diese Website zu laden . Es erlaubt uns immer nur eine Struktur zu laden. Aber ich habe Hunderte von Strukturdateien zum Laden. Gibt es eine Möglichkeit, ein Skript zum Aktivieren der Stapelübertragung zu schreiben? Ich bin offen für Vorschl...
fragte lanselibai vor 6 Jahren

2
Bewertungen
1
Antwort
9126
Ansichten

Wie speichert man alle Dateien / Links aus einem Telegrammchat / -kanal?

Ich möchte ALLE http (s) -Links und / oder -Dateien speichern, die in einem Telegramm-Chat (privat oder in einer Gruppe) oder in einem Kanal (wie eine Mailingliste) gepostet wurden. Ich brauche ein Analog von TumblOne(für tumblr) VkOpt(in der Lage, den Chat-Verlauf in vk.com zu speichern) oder jDow...

0
Bewertungen
0
Antworten
883
Ansichten

xauth: (argv): 1: Sicherheitserweiterung bei Anzeige ": 0" konnte nicht abgefragt werden

Ich versuche, go- selenium einzurichten, um es für das Testen von Webseiten zu verwenden. Ich habe die Anweisungen befolgt und die Installation aller für den Selen-Webtreiber erforderlichen Abhängigkeiten abgeschlossen (z. B. Geckodriver, Chromedriver usw.). Wenn ich versuche, $ go test auszuführen,...

0
Bewertungen
1
Antwort
401
Ansicht

Schreibe URLs in eine Textdatei, die einem Muster entsprechen

Ich versuche, die Website nickjr.com zu analysieren, insbesondere die URL " http://www.nickjr.com/paw-patrol/videos/ ", die nur für vollständige Episoden gilt. nickjr.com hat seine Website nach Showtitel, dann nach Spielen oder Videos, zumindest mit Paw Patrol, angelegt. Die URL bleibt also gleich,...
fragte Christopher Johnson vor 6 Jahren

-3
Bewertungen
3
Antworten
755
Ansichten

Wie implementiere ich Anti-Scraping-Mechanismen für meine Amazon S3-basierte Site?

Ich habe ein paar statische Webseiten, die auf Amazon S3 gehostet werden und sehr häufig aktualisiert werden. Ich möchte ein paar Anti-Scraping-Mechanismen implementieren, wie das Verbot von IPs, die zu viele Anfragen machen oder Anfragen erscheinen, die als Roboter erscheinen. Ich weiß, dass nichts...

-1
Bewertungen
1
Antwort
1080
Ansichten

Website für Dateien crawlen

Hallo, ich möchte alle PDF- Dateien von http://www.allitebooks.com/ herunterladen und wget verwenden. Mein Befehl ist, "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -raber ich glaube, dass er den Links zur Subdomain vorerst nicht folgen kann. Wie kann ich das Problem beheben, damit er htt...
fragte Thomas Moors vor 7 Jahren

0
Bewertungen
0
Antworten
351
Ansicht

Centos 7 - Apache verbietet meinen Crawler für Webanwendungssicherheit

Ich versuche mit Vega einen Scan auf meiner Website durchzuführen, aber nachdem der Crawler ein paar Anfragen gesendet hat, wird meine IP-Adresse für 30 Minuten blockiert. Dies ist nicht die Schuld von fail2ban (das installiert ist), weil es nur ein Gefängnis für sshd hat und ich habe versucht, es a...
fragte Jojo595 vor 7 Jahren

1
Bewertungen
1
Antwort
1249
Ansichten

Wie finde ich die Seiten, die auf eine bestimmte Seite verweisen?

Ich habe die folgende Seite http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf Ich möchte die Seiten auf www.fda.gov finden, die auf diese Seite verweisen. Wie kann ich das machen?

3
Bewertungen
1
Antwort
483
Ansichten

Suchen von Seiten auf einer Webseite, die einen bestimmten Link enthalten

Google macht gute Arbeit, um relevante Informationen zu finden. Sprich ich google: Die Meinung der FDA zu ISO-9001 Dann findet es einen Link zu einem PDF-Dokument auf http://www.fda.gov/downloads/MedicalDevices/DeviceRegulationandGuidance/PostmarketRequirements/QualitySystemsRegulations/UCM134625.pd...
fragte Norfeldt vor 8 Jahren

1
Bewertungen
0
Antworten
820
Ansichten

So extrahieren Sie Text von Websites

Ich suche nach einer Möglichkeit, das Extrahieren von Text von mehreren Websites in ein Word-Dokument zu automatisieren. Beim Einfügen in das Word-Dokument muss es mit "Formatierung zusammenfügen" eingefügt werden. So möchte ich, dass der extrahierte Text endet, nachdem er in das Wort doc - Example...

2
Bewertungen
1
Antwort
1318
Ansichten

Zuweisen einer unterschiedlichen IP beim Crawlen von Webseiten

Wie kann ich beim Crawlen verschiedene IP-Adressen zuweisen? Ich krieche jeden Tag Milliarden von Seiten (die Zuweisung einer anderen IP-Adresse hilft beim Blockieren)
fragte Mounarajan vor 8 Jahren

1
Bewertungen
1
Antwort
319
Ansichten

Speichern Sie die Webseite mit allen zugehörigen Inhalten

Ich versuche herauszufinden, wie ich eine Webseite mit allen zugehörigen Dateien speichern kann, zum Beispiel: http://docs.oasis-open.org/ubl/os-UBL-2.0/xsd/ Ich möchte alle Dateien im Verzeichnis wie ein Crawler speichern, aber mehr und möglichst in Firefox

0
Bewertungen
1
Antwort
687
Ansichten

Wie konnte ich alle Dateien im Dateiserver rekursiv crawlen?

Auf einem Dateiserver http://xxxx.com befinden sich Tausende von Dateien Ich habe versucht, es mit dem Tool zu kriechen httrack Es funktioniert nicht. Gibt es ein alternatives Tool, das die gesamten Dateien rekursiv auf Basis einer Web-URL herunterladen kann? Vielen Dank
fragte user3675188 vor 8 Jahren

1
Bewertungen
2
Antworten
315
Ansichten

Web-Crawler mit Option zum Konvertieren von Links

Ich möchte eine Backup-Site crawlen, auf die ich keinen Zugriff habe. Die Website ist in subdomain.somesite.com gesichert, während die Links auf der Website www.subdomain.com sind Dies führt zu folgender Situation: Der Link http://subdomain.somesite.com/?page_id=number funktioniert, aber der Link in...
fragte qballer vor 8 Jahren

-3
Bewertungen
2
Antworten
1115
Ansichten

Wie kann ich nur Wortdaten von einer Website kratzen?

Ich möchte den gesamten Wortinhalt von einer bestimmten Website herunterladen. Speichern Sie die Ergebnisse in MS Word, Excel oder Notepad und prüfen Sie, welche Wörter am häufigsten und wie oft wiederholt werden.

2
Bewertungen
0
Antworten
343
Ansichten

wget - limit auf bestimmte Links

Ich möchte die Website spiegeln, aber nur bestimmten Links folgen. Befehl: wget --recursive --page-requisites --html-extension --convert-links --domains linuxmagazine.pl http://www.linuxmagazine.pl/index.php/magazine/archiwum gibt mir die ganze Seite. Ich möchte Wget auf "Nr. XX" -Links oder URI *...
fragte QkiZ vor 9 Jahren

-1
Bewertungen
2
Antworten
608
Ansichten

Die "intelligente" Art, das Web zu crawlen

Ich habe ein Projekt, für das ich das Web crawlen muss lyrics, ich implementiere depth-first searchund mache eine Datenbank in einer Liste (die verschachtelte Listen enthält, die später in einer Datei gespeichert werden). Meine Idee ist, den HTML-Inhalt der Website abzurufen, ihn in der Datei zu spe...

0
Bewertungen
1
Antwort
382
Ansichten

Warum empfängt meine persönliche Website Besucher unter mysteriösen URLs?

Ich habe kürzlich ein Update für die Besucherprotokollierung meiner Website vorgenommen. Als ich überprüfte, dass die Website ordnungsgemäß funktioniert hat, habe ich festgestellt, dass ich Besucher mit URLs bekomme, die mir nicht gehören. Ich war überrascht, sogar Bots zu sehen, da die Site nicht b...
fragte Dylan vor 9 Jahren

1
Bewertungen
0
Antworten
282
Ansichten

Zugriff auf alle Links einer Domain (kein Hyperlink verfügbar)

Ich muss Zugriff auf alle Links haben wie: http://www.thewebsitename.com/random_alphanumeric_code1.asp http://www.thewebsitename.com/random_alphanumeric_code2.asp usw.für eine bestimmte Website: http://www.thewebsitename.com (Natürlich ist kein Hyperlink zu solchen Links unter http://www.thewebsite...
fragte rinfinity vor 9 Jahren

0
Bewertungen
0
Antworten
279
Ansichten

Import von Web-Scraping auf die lokale Website

Ich suche nach einer Möglichkeit, auf einer Website nach einem bestimmten Produkt zu suchen und Daten daraus zu extrahieren, ohne jedoch direkt zu dieser Website zu gelangen, wie von einer lokalen Website, die Informationen abfragt und herunterlädt. Ich denke, "Web-Scraping" ist das, wonach ich suc...
fragte Steven Désilets vor 9 Jahren

2
Bewertungen
3
Antworten
1179
Ansichten

Extrahieren von Links aus einem numerischen Bereich von Webseiten

Ich möchte Links aus einer numerischen Folge von Seiten wie folgt extrahieren: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... http://example.com/page329.html Bei der Ausgabe möchte ich eine Textdatei mit URLs, die aus den Links auf diesen Seit...

-1
Bewertungen
1
Antwort
584
Ansichten

Alle Links einer Website auf einer anderen Website auflisten

Es gibt zwei Websites. 1) www.aa.com 2) www.bb.com Nun gibt es so viele Links zu aa.com und seinen Webseiten auf bb.com aa.com/blhahhaa.html aa.com/beautifulday.html aa.com also möchte ich diese Liste herausfinden. Gibt es dafür irgendwelche Skripte oder Werkzeuge? eine Idee, wie man ein solches W...
fragte Jeegar Patel vor 9 Jahren

1
Bewertungen
1
Antwort
1185
Ansichten

Spiegeln einer Website mit Seiten, die einfaches JavaScript verwenden

Es gibt einfache und großartige Tools zum Herunterladen von Websites, mit denen Sie einen lokalen Spiegel von einfachen Websites ohne JavaScript-Infrastruktur erstellen können. Manchmal gibt es jedoch Fälle, in denen eine Site einfach aussieht (und sogar alt genug ist, um eine echte "Web 1.0" -Seite...
fragte Lyubomyr Shaydariv vor 10 Jahren

-1
Bewertungen
1
Antwort
486
Ansichten

Zusammenstellung einer Liste von Links auf einer Website und deren Gültigkeit

Ich möchte meine Website crawlen und eine Liste der internen und ausgehenden Links sowie des endgültigen Ziels und des HTTP-Codes (zumindest für interne Links) erstellen. Wie kann ich das machen? Bitte beachten Sie: Der Inhalt der Seite interessiert mich nicht, es sei denn, Links darin zu finden.
fragte Malfist vor 10 Jahren