Neue Fragen mit dem Tag «web-crawler»

Insgesamt gefunden 67 Fragen

Bewertungen

Antworten

446

Ansichten

Verwendung von wget parallel, da es nicht multithreading ist

Ich muss rund 1M Webseiten herunterladen. Ich habe ihre direkten URLs (in der Datenbank, aber ich kann sie an anderer Stelle in jede Art von Speicher, Datenbank oder Datei einfügen). Ich habe wget ausprobiert, aber ich möchte wget nicht in den Hintergrund stellen und mit einem Kontrollskript umwicke...

fragte David Strejc vor 5 Jahren

Bewertungen

Antworten

347

Ansichten

Jede Chrome-Erweiterung oder jedes Plugin kann die angezeigten Webseiten automatisch speichern?

Ich bin auf der Suche nach einer Software- oder Browsererweiterung (besser mit Chrome), mit der alle Webseiten, die ich automatisch auf lokaler Ebene angezeigt habe, gespeichert werden. Soweit ich weiß, gibt es mit Firefox einen Namen namens ScrapBook, unterstützt aber nach 60 nicht mehr Firefox.

google-chrome web-crawler extension

fragte Eric Wang vor 6 Jahren

Bewertungen

Antworten

498

Ansichten

Ist eine Website, die nirgendwo verlinkt ist, vollständig verborgen?

Ich möchte eine Webseite erstellen, auf die nur ich und eine andere Person zugreifen können. Ich möchte keine Authentifizierung verwenden (Benutzername / Passwort, Zertifikate usw.). Meine Frage ist: Wenn ich die Website von meinem eigenen Webserver aus bereitstelle und den Inhalt nicht im Stammverz...

webserver nginx web-crawler

fragte Cheesegraterr vor 6 Jahren

Bewertungen

Antwort

369

Ansichten

Wie kann man eine große Liste von URLs crawlen?

Ich habe eine riesige Liste von URLs. Es sieht ungefähr so aus: www.example.com/api/users/1.json www.example.com/api/users/2.json www.example.com/api/users/3.json Und fährt etwa 400.000 Mal fort. Ziel ist es, auf allen Seiten eine bestimmte Textzeichenfolge zu finden. Weiß jemand, wie ich das mac...

web-crawler

fragte DangerBob Gaming vor 6 Jahren

Bewertungen

Antworten

496

Ansichten

Wie kann ich eine Website rekursiv herunterladen, die sich hinter Google auth befindet?

Ich möchte eine Website rekursiv herunterladen, die sich hinter Google auth befindet. Ich habe im Chrome-Store viele Links gefunden, mit denen ich die aktuell geöffnete Webseite herunterladen kann, aber keiner von ihnen folgt Links. Irgendwelche Tipps? Wget- und Desktop-Apps funktionieren nicht, da...

google-chrome website browser-addons web-crawler

fragte sydd vor 6 Jahren

Bewertungen

Antworten

527

Ansichten

Minimaler Speicherverbrauch in kopflosem Firefox?

Ich plane, einen Bot in vielen separaten parallelen Instanzen auszuführen, und möchte den Speicherbedarf auf einem Minimum halten. Der Bot benötigt nur funktionelles JS und das Laden der Seite, aber nichts Grafisches. Es wird immer nur eine einzige Registerkarte verwendet. Gibt es Einstellungen, die...

linux firefox web-crawler screen-scraping

fragte KellyKapoor vor 6 Jahren

Bewertungen

Antwort

360

Ansichten

Wie führt man eine Batch-Eingabe von einem Webserver aus durch?

Ich versuche, eine Proteinstrukturdatei (z. B. diese ) auf diese Website zu laden . Es erlaubt uns immer nur eine Struktur zu laden. Aber ich habe Hunderte von Strukturdateien zum Laden. Gibt es eine Möglichkeit, ein Skript zum Aktivieren der Stapelübertragung zu schreiben? Ich bin offen für Vorschl...

batch script webserver web-crawler

fragte lanselibai vor 6 Jahren

Bewertungen

Antwort

9173

Ansichten

Wie speichert man alle Dateien / Links aus einem Telegrammchat / -kanal?

Ich möchte ALLE http (s) -Links und / oder -Dateien speichern, die in einem Telegramm-Chat (privat oder in einer Gruppe) oder in einem Kanal (wie eine Mailingliste) gepostet wurden. Ich brauche ein Analog von TumblOne(für tumblr) VkOpt(in der Lage, den Chat-Verlauf in vk.com zu speichern) oder jDow...

download-manager web-crawler bulk telegram-messenger

fragte WallOfBytes vor 7 Jahren

Bewertungen

Antworten

954

Ansichten

xauth: (argv): 1: Sicherheitserweiterung bei Anzeige ": 0" konnte nicht abgefragt werden

Ich versuche, go- selenium einzurichten, um es für das Testen von Webseiten zu verwenden. Ich habe die Anweisungen befolgt und die Installation aller für den Selen-Webtreiber erforderlichen Abhängigkeiten abgeschlossen (z. B. Geckodriver, Chromedriver usw.). Wenn ich versuche, $ go test auszuführen,...

xorg web-crawler xauth selenium golang

fragte yogesh_desai vor 7 Jahren

Bewertungen

Antwort

446

Ansichten

Schreibe URLs in eine Textdatei, die einem Muster entsprechen

Ich versuche, die Website nickjr.com zu analysieren, insbesondere die URL " http://www.nickjr.com/paw-patrol/videos/ ", die nur für vollständige Episoden gilt. nickjr.com hat seine Website nach Showtitel, dann nach Spielen oder Videos, zumindest mit Paw Patrol, angelegt. Die URL bleibt also gleich,...

ubuntu url parsing web-crawler

fragte Christopher Johnson vor 7 Jahren

-3

Bewertungen

Antworten

799

Ansichten

Wie implementiere ich Anti-Scraping-Mechanismen für meine Amazon S3-basierte Site?

Ich habe ein paar statische Webseiten, die auf Amazon S3 gehostet werden und sehr häufig aktualisiert werden. Ich möchte ein paar Anti-Scraping-Mechanismen implementieren, wie das Verbot von IPs, die zu viele Anfragen machen oder Anfragen erscheinen, die als Roboter erscheinen. Ich weiß, dass nichts...

amazon-web-services amazon-ec2 amazon-s3 web-crawler screen-scraping

fragte Avinash vor 7 Jahren

-1

Bewertungen

Antwort

1117

Ansichten

Website für Dateien crawlen

Hallo, ich möchte alle PDF- Dateien von http://www.allitebooks.com/ herunterladen und wget verwenden. Mein Befehl ist, "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -raber ich glaube, dass er den Links zur Subdomain vorerst nicht folgen kann. Wie kann ich das Problem beheben, damit er htt...

pdf wget web-crawler

fragte Thomas Moors vor 7 Jahren

Bewertungen

Antworten

383

Ansichten

Centos 7 - Apache verbietet meinen Crawler für Webanwendungssicherheit

Ich versuche mit Vega einen Scan auf meiner Website durchzuführen, aber nachdem der Crawler ein paar Anfragen gesendet hat, wird meine IP-Adresse für 30 Minuten blockiert. Dies ist nicht die Schuld von fail2ban (das installiert ist), weil es nur ein Gefängnis für sshd hat und ich habe versucht, es a...

ip centos-7 httpd web-crawler

fragte Jojo595 vor 8 Jahren

Bewertungen

Antwort

1286

Ansichten

Wie finde ich die Seiten, die auf eine bestimmte Seite verweisen?

Ich habe die folgende Seite http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf Ich möchte die Seiten auf www.fda.gov finden, die auf diese Seite verweisen. Wie kann ich das machen?

search google-search links web-crawler

fragte Norfeldt vor 8 Jahren

Bewertungen

Antwort

522

Ansichten

Suchen von Seiten auf einer Webseite, die einen bestimmten Link enthalten

Google macht gute Arbeit, um relevante Informationen zu finden. Sprich ich google: Die Meinung der FDA zu ISO-9001 Dann findet es einen Link zu einem PDF-Dokument auf http://www.fda.gov/downloads/MedicalDevices/DeviceRegulationandGuidance/PostmarketRequirements/QualitySystemsRegulations/UCM134625.pd...

pdf google-search web-crawler

fragte Norfeldt vor 8 Jahren

Bewertungen

Antworten

850

Ansichten

So extrahieren Sie Text von Websites

Ich suche nach einer Möglichkeit, das Extrahieren von Text von mehreren Websites in ein Word-Dokument zu automatisieren. Beim Einfügen in das Word-Dokument muss es mit "Formatierung zusammenfügen" eingefügt werden. So möchte ich, dass der extrahierte Text endet, nachdem er in das Wort doc - Example...

microsoft-word parsing web-crawler

fragte Woz vor 8 Jahren

Bewertungen

Antwort

1382

Ansichten

Zuweisen einer unterschiedlichen IP beim Crawlen von Webseiten

Wie kann ich beim Crawlen verschiedene IP-Adressen zuweisen? Ich krieche jeden Tag Milliarden von Seiten (die Zuweisung einer anderen IP-Adresse hilft beim Blockieren)

proxy ip web-crawler

fragte Mounarajan vor 8 Jahren

Bewertungen

Antwort

358

Ansichten

Speichern Sie die Webseite mit allen zugehörigen Inhalten

Ich versuche herauszufinden, wie ich eine Webseite mit allen zugehörigen Dateien speichern kann, zum Beispiel: http://docs.oasis-open.org/ubl/os-UBL-2.0/xsd/ Ich möchte alle Dateien im Verzeichnis wie ein Crawler speichern, aber mehr und möglichst in Firefox

browser firefox-extensions web-crawler

fragte maazza vor 8 Jahren

Bewertungen

Antwort

722

Ansichten

Wie konnte ich alle Dateien im Dateiserver rekursiv crawlen?

Auf einem Dateiserver http://xxxx.com befinden sich Tausende von Dateien Ich habe versucht, es mit dem Tool zu kriechen httrack Es funktioniert nicht. Gibt es ein alternatives Tool, das die gesamten Dateien rekursiv auf Basis einer Web-URL herunterladen kann? Vielen Dank

linux macos web-crawler

fragte user3675188 vor 8 Jahren

Bewertungen

Antworten

351

Ansicht

Web-Crawler mit Option zum Konvertieren von Links

Ich möchte eine Backup-Site crawlen, auf die ich keinen Zugriff habe. Die Website ist in subdomain.somesite.com gesichert, während die Links auf der Website www.subdomain.com sind Dies führt zu folgender Situation: Der Link http://subdomain.somesite.com/?page_id=number funktioniert, aber der Link in...

wordpress web-crawler

fragte qballer vor 9 Jahren

-3

Bewertungen

Antworten

1160

Ansichten

Wie kann ich nur Wortdaten von einer Website kratzen?

Ich möchte den gesamten Wortinhalt von einer bestimmten Website herunterladen. Speichern Sie die Ergebnisse in MS Word, Excel oder Notepad und prüfen Sie, welche Wörter am häufigsten und wie oft wiederholt werden.

microsoft-excel microsoft-word web-crawler data-mining

fragte Staskata vor 9 Jahren

Bewertungen

Antworten

381

Ansicht

wget - limit auf bestimmte Links

Ich möchte die Website spiegeln, aber nur bestimmten Links folgen. Befehl: wget --recursive --page-requisites --html-extension --convert-links --domains linuxmagazine.pl http://www.linuxmagazine.pl/index.php/magazine/archiwum gibt mir die ganze Seite. Ich möchte Wget auf "Nr. XX" -Links oder URI *...

wget web-crawler

fragte QkiZ vor 9 Jahren

-1

Bewertungen

Antworten

656

Ansichten

Die "intelligente" Art, das Web zu crawlen

Ich habe ein Projekt, für das ich das Web crawlen muss lyrics, ich implementiere depth-first searchund mache eine Datenbank in einer Liste (die verschachtelte Listen enthält, die später in einer Datei gespeichert werden). Meine Idee ist, den HTML-Inhalt der Website abzurufen, ihn in der Datei zu spe...

python database web-crawler bots

fragte Puru vor 9 Jahren

Bewertungen

Antwort

418

Ansichten

Warum empfängt meine persönliche Website Besucher unter mysteriösen URLs?

Ich habe kürzlich ein Update für die Besucherprotokollierung meiner Website vorgenommen. Als ich überprüfte, dass die Website ordnungsgemäß funktioniert hat, habe ich festgestellt, dass ich Besucher mit URLs bekomme, die mir nicht gehören. Ich war überrascht, sogar Bots zu sehen, da die Site nicht b...

dns web-crawler

fragte Dylan vor 9 Jahren

Bewertungen

Antworten

317

Ansichten

Zugriff auf alle Links einer Domain (kein Hyperlink verfügbar)

Ich muss Zugriff auf alle Links haben wie: http://www.thewebsitename.com/random_alphanumeric_code1.asp http://www.thewebsitename.com/random_alphanumeric_code2.asp usw.für eine bestimmte Website: http://www.thewebsitename.com (Natürlich ist kein Hyperlink zu solchen Links unter http://www.thewebsite...

internet http web-crawler

fragte rinfinity vor 10 Jahren

Bewertungen

Antworten

308

Ansichten

Import von Web-Scraping auf die lokale Website

Ich suche nach einer Möglichkeit, auf einer Website nach einem bestimmten Produkt zu suchen und Daten daraus zu extrahieren, ohne jedoch direkt zu dieser Website zu gelangen, wie von einer lokalen Website, die Informationen abfragt und herunterlädt. Ich denke, "Web-Scraping" ist das, wonach ich suc...

search web web-crawler

fragte Steven Désilets vor 10 Jahren

Bewertungen

Antworten

1224

Ansichten

Extrahieren von Links aus einem numerischen Bereich von Webseiten

Ich möchte Links aus einer numerischen Folge von Seiten wie folgt extrahieren: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... http://example.com/page329.html Bei der Ausgabe möchte ich eine Textdatei mit URLs, die aus den Links auf diesen Seit...

html parsing web-crawler

fragte vor 10 Jahren

-1

Bewertungen

Antwort

619

Ansichten

Alle Links einer Website auf einer anderen Website auflisten

Es gibt zwei Websites. 1) www.aa.com 2) www.bb.com Nun gibt es so viele Links zu aa.com und seinen Webseiten auf bb.com aa.com/blhahhaa.html aa.com/beautifulday.html aa.com also möchte ich diese Liste herausfinden. Gibt es dafür irgendwelche Skripte oder Werkzeuge? eine Idee, wie man ein solches W...

website url web-crawler

fragte Jeegar Patel vor 10 Jahren

Bewertungen

Antwort

1225

Ansichten

Spiegeln einer Website mit Seiten, die einfaches JavaScript verwenden

Es gibt einfache und großartige Tools zum Herunterladen von Websites, mit denen Sie einen lokalen Spiegel von einfachen Websites ohne JavaScript-Infrastruktur erstellen können. Manchmal gibt es jedoch Fälle, in denen eine Site einfach aussieht (und sogar alt genug ist, um eine echte "Web 1.0" -Seite...

download wget javascript mirroring web-crawler

fragte Lyubomyr Shaydariv vor 10 Jahren

-1

Bewertungen

Antwort

528

Ansichten

Zusammenstellung einer Liste von Links auf einer Website und deren Gültigkeit

Ich möchte meine Website crawlen und eine Liste der internen und ausgehenden Links sowie des endgültigen Ziels und des HTTP-Codes (zumindest für interne Links) erstellen. Wie kann ich das machen? Bitte beachten Sie: Der Inhalt der Seite interessiert mich nicht, es sei denn, Links darin zu finden.

web-crawler

fragte Malfist vor 10 Jahren