Neue Fragen mit dem Tag «web-crawler»
Insgesamt gefunden 67 Fragen
0
Bewertungen
0
Antworten
446
Ansichten
Verwendung von wget parallel, da es nicht multithreading ist
Ich muss rund 1M Webseiten herunterladen. Ich habe ihre direkten URLs (in der Datenbank, aber ich kann sie an anderer Stelle in jede Art von Speicher, Datenbank oder Datei einfügen). Ich habe wget ausprobiert, aber ich möchte wget nicht in den Hintergrund stellen und mit einem Kontrollskript umwicke...
fragte David Strejc vor 5 Jahren
1
Bewertungen
0
Antworten
347
Ansichten
Jede Chrome-Erweiterung oder jedes Plugin kann die angezeigten Webseiten automatisch speichern?
Ich bin auf der Suche nach einer Software- oder Browsererweiterung (besser mit Chrome), mit der alle Webseiten, die ich automatisch auf lokaler Ebene angezeigt habe, gespeichert werden. Soweit ich weiß, gibt es mit Firefox einen Namen namens ScrapBook, unterstützt aber nach 60 nicht mehr Firefox.
fragte Eric Wang vor 6 Jahren
2
Bewertungen
2
Antworten
498
Ansichten
Ist eine Website, die nirgendwo verlinkt ist, vollständig verborgen?
Ich möchte eine Webseite erstellen, auf die nur ich und eine andere Person zugreifen können. Ich möchte keine Authentifizierung verwenden (Benutzername / Passwort, Zertifikate usw.). Meine Frage ist: Wenn ich die Website von meinem eigenen Webserver aus bereitstelle und den Inhalt nicht im Stammverz...
fragte Cheesegraterr vor 6 Jahren
1
Bewertungen
1
Antwort
369
Ansichten
Wie kann man eine große Liste von URLs crawlen?
Ich habe eine riesige Liste von URLs. Es sieht ungefähr so aus: www.example.com/api/users/1.json www.example.com/api/users/2.json www.example.com/api/users/3.json Und fährt etwa 400.000 Mal fort. Ziel ist es, auf allen Seiten eine bestimmte Textzeichenfolge zu finden. Weiß jemand, wie ich das mac...
fragte DangerBob Gaming vor 6 Jahren
1
Bewertungen
0
Antworten
496
Ansichten
Wie kann ich eine Website rekursiv herunterladen, die sich hinter Google auth befindet?
Ich möchte eine Website rekursiv herunterladen, die sich hinter Google auth befindet. Ich habe im Chrome-Store viele Links gefunden, mit denen ich die aktuell geöffnete Webseite herunterladen kann, aber keiner von ihnen folgt Links. Irgendwelche Tipps? Wget- und Desktop-Apps funktionieren nicht, da...
fragte sydd vor 6 Jahren
0
Bewertungen
0
Antworten
527
Ansichten
Minimaler Speicherverbrauch in kopflosem Firefox?
Ich plane, einen Bot in vielen separaten parallelen Instanzen auszuführen, und möchte den Speicherbedarf auf einem Minimum halten. Der Bot benötigt nur funktionelles JS und das Laden der Seite, aber nichts Grafisches. Es wird immer nur eine einzige Registerkarte verwendet. Gibt es Einstellungen, die...
fragte KellyKapoor vor 6 Jahren
0
Bewertungen
1
Antwort
360
Ansichten
Wie führt man eine Batch-Eingabe von einem Webserver aus durch?
Ich versuche, eine Proteinstrukturdatei (z. B. diese ) auf diese Website zu laden . Es erlaubt uns immer nur eine Struktur zu laden. Aber ich habe Hunderte von Strukturdateien zum Laden. Gibt es eine Möglichkeit, ein Skript zum Aktivieren der Stapelübertragung zu schreiben? Ich bin offen für Vorschl...
fragte lanselibai vor 6 Jahren
2
Bewertungen
1
Antwort
9173
Ansichten
Wie speichert man alle Dateien / Links aus einem Telegrammchat / -kanal?
Ich möchte ALLE http (s) -Links und / oder -Dateien speichern, die in einem Telegramm-Chat (privat oder in einer Gruppe) oder in einem Kanal (wie eine Mailingliste) gepostet wurden. Ich brauche ein Analog von TumblOne(für tumblr) VkOpt(in der Lage, den Chat-Verlauf in vk.com zu speichern) oder jDow...
fragte WallOfBytes vor 7 Jahren
0
Bewertungen
0
Antworten
954
Ansichten
xauth: (argv): 1: Sicherheitserweiterung bei Anzeige ": 0" konnte nicht abgefragt werden
Ich versuche, go- selenium einzurichten, um es für das Testen von Webseiten zu verwenden. Ich habe die Anweisungen befolgt und die Installation aller für den Selen-Webtreiber erforderlichen Abhängigkeiten abgeschlossen (z. B. Geckodriver, Chromedriver usw.). Wenn ich versuche, $ go test auszuführen,...
fragte yogesh_desai vor 7 Jahren
0
Bewertungen
1
Antwort
446
Ansichten
Schreibe URLs in eine Textdatei, die einem Muster entsprechen
Ich versuche, die Website nickjr.com zu analysieren, insbesondere die URL " http://www.nickjr.com/paw-patrol/videos/ ", die nur für vollständige Episoden gilt. nickjr.com hat seine Website nach Showtitel, dann nach Spielen oder Videos, zumindest mit Paw Patrol, angelegt. Die URL bleibt also gleich,...
fragte Christopher Johnson vor 7 Jahren
-3
Bewertungen
3
Antworten
799
Ansichten
Wie implementiere ich Anti-Scraping-Mechanismen für meine Amazon S3-basierte Site?
Ich habe ein paar statische Webseiten, die auf Amazon S3 gehostet werden und sehr häufig aktualisiert werden. Ich möchte ein paar Anti-Scraping-Mechanismen implementieren, wie das Verbot von IPs, die zu viele Anfragen machen oder Anfragen erscheinen, die als Roboter erscheinen. Ich weiß, dass nichts...
fragte Avinash vor 7 Jahren
-1
Bewertungen
1
Antwort
1117
Ansichten
Website für Dateien crawlen
Hallo, ich möchte alle PDF- Dateien von http://www.allitebooks.com/ herunterladen und wget verwenden. Mein Befehl ist, "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -raber ich glaube, dass er den Links zur Subdomain vorerst nicht folgen kann. Wie kann ich das Problem beheben, damit er htt...
fragte Thomas Moors vor 7 Jahren
0
Bewertungen
0
Antworten
383
Ansichten
Centos 7 - Apache verbietet meinen Crawler für Webanwendungssicherheit
Ich versuche mit Vega einen Scan auf meiner Website durchzuführen, aber nachdem der Crawler ein paar Anfragen gesendet hat, wird meine IP-Adresse für 30 Minuten blockiert. Dies ist nicht die Schuld von fail2ban (das installiert ist), weil es nur ein Gefängnis für sshd hat und ich habe versucht, es a...
fragte Jojo595 vor 8 Jahren
1
Bewertungen
1
Antwort
1286
Ansichten
Wie finde ich die Seiten, die auf eine bestimmte Seite verweisen?
Ich habe die folgende Seite http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf Ich möchte die Seiten auf www.fda.gov finden, die auf diese Seite verweisen. Wie kann ich das machen?
fragte Norfeldt vor 8 Jahren
3
Bewertungen
1
Antwort
522
Ansichten
Suchen von Seiten auf einer Webseite, die einen bestimmten Link enthalten
Google macht gute Arbeit, um relevante Informationen zu finden. Sprich ich google: Die Meinung der FDA zu ISO-9001 Dann findet es einen Link zu einem PDF-Dokument auf http://www.fda.gov/downloads/MedicalDevices/DeviceRegulationandGuidance/PostmarketRequirements/QualitySystemsRegulations/UCM134625.pd...
fragte Norfeldt vor 8 Jahren
1
Bewertungen
0
Antworten
850
Ansichten
So extrahieren Sie Text von Websites
Ich suche nach einer Möglichkeit, das Extrahieren von Text von mehreren Websites in ein Word-Dokument zu automatisieren. Beim Einfügen in das Word-Dokument muss es mit "Formatierung zusammenfügen" eingefügt werden. So möchte ich, dass der extrahierte Text endet, nachdem er in das Wort doc - Example...
fragte Woz vor 8 Jahren
2
Bewertungen
1
Antwort
1382
Ansichten
Zuweisen einer unterschiedlichen IP beim Crawlen von Webseiten
Wie kann ich beim Crawlen verschiedene IP-Adressen zuweisen? Ich krieche jeden Tag Milliarden von Seiten (die Zuweisung einer anderen IP-Adresse hilft beim Blockieren)
fragte Mounarajan vor 8 Jahren
1
Bewertungen
1
Antwort
358
Ansichten
Speichern Sie die Webseite mit allen zugehörigen Inhalten
Ich versuche herauszufinden, wie ich eine Webseite mit allen zugehörigen Dateien speichern kann, zum Beispiel: http://docs.oasis-open.org/ubl/os-UBL-2.0/xsd/ Ich möchte alle Dateien im Verzeichnis wie ein Crawler speichern, aber mehr und möglichst in Firefox
fragte maazza vor 8 Jahren
0
Bewertungen
1
Antwort
722
Ansichten
Wie konnte ich alle Dateien im Dateiserver rekursiv crawlen?
Auf einem Dateiserver http://xxxx.com befinden sich Tausende von Dateien Ich habe versucht, es mit dem Tool zu kriechen httrack Es funktioniert nicht. Gibt es ein alternatives Tool, das die gesamten Dateien rekursiv auf Basis einer Web-URL herunterladen kann? Vielen Dank
fragte user3675188 vor 8 Jahren
1
Bewertungen
2
Antworten
351
Ansicht
Web-Crawler mit Option zum Konvertieren von Links
Ich möchte eine Backup-Site crawlen, auf die ich keinen Zugriff habe. Die Website ist in subdomain.somesite.com gesichert, während die Links auf der Website www.subdomain.com sind Dies führt zu folgender Situation: Der Link http://subdomain.somesite.com/?page_id=number funktioniert, aber der Link in...
fragte qballer vor 9 Jahren
-3
Bewertungen
2
Antworten
1160
Ansichten
Wie kann ich nur Wortdaten von einer Website kratzen?
Ich möchte den gesamten Wortinhalt von einer bestimmten Website herunterladen. Speichern Sie die Ergebnisse in MS Word, Excel oder Notepad und prüfen Sie, welche Wörter am häufigsten und wie oft wiederholt werden.
fragte Staskata vor 9 Jahren
2
Bewertungen
0
Antworten
381
Ansicht
wget - limit auf bestimmte Links
Ich möchte die Website spiegeln, aber nur bestimmten Links folgen. Befehl: wget --recursive --page-requisites --html-extension --convert-links --domains linuxmagazine.pl http://www.linuxmagazine.pl/index.php/magazine/archiwum gibt mir die ganze Seite. Ich möchte Wget auf "Nr. XX" -Links oder URI *...
fragte QkiZ vor 9 Jahren
-1
Bewertungen
2
Antworten
656
Ansichten
Die "intelligente" Art, das Web zu crawlen
Ich habe ein Projekt, für das ich das Web crawlen muss lyrics, ich implementiere depth-first searchund mache eine Datenbank in einer Liste (die verschachtelte Listen enthält, die später in einer Datei gespeichert werden). Meine Idee ist, den HTML-Inhalt der Website abzurufen, ihn in der Datei zu spe...
fragte Puru vor 9 Jahren
0
Bewertungen
1
Antwort
418
Ansichten
Warum empfängt meine persönliche Website Besucher unter mysteriösen URLs?
Ich habe kürzlich ein Update für die Besucherprotokollierung meiner Website vorgenommen. Als ich überprüfte, dass die Website ordnungsgemäß funktioniert hat, habe ich festgestellt, dass ich Besucher mit URLs bekomme, die mir nicht gehören. Ich war überrascht, sogar Bots zu sehen, da die Site nicht b...
fragte Dylan vor 9 Jahren
1
Bewertungen
0
Antworten
317
Ansichten
Zugriff auf alle Links einer Domain (kein Hyperlink verfügbar)
Ich muss Zugriff auf alle Links haben wie: http://www.thewebsitename.com/random_alphanumeric_code1.asp http://www.thewebsitename.com/random_alphanumeric_code2.asp usw.für eine bestimmte Website: http://www.thewebsitename.com (Natürlich ist kein Hyperlink zu solchen Links unter http://www.thewebsite...
fragte rinfinity vor 10 Jahren
0
Bewertungen
0
Antworten
308
Ansichten
Import von Web-Scraping auf die lokale Website
Ich suche nach einer Möglichkeit, auf einer Website nach einem bestimmten Produkt zu suchen und Daten daraus zu extrahieren, ohne jedoch direkt zu dieser Website zu gelangen, wie von einer lokalen Website, die Informationen abfragt und herunterlädt. Ich denke, "Web-Scraping" ist das, wonach ich suc...
fragte Steven Désilets vor 10 Jahren
2
Bewertungen
3
Antworten
1224
Ansichten
Extrahieren von Links aus einem numerischen Bereich von Webseiten
Ich möchte Links aus einer numerischen Folge von Seiten wie folgt extrahieren: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... http://example.com/page329.html Bei der Ausgabe möchte ich eine Textdatei mit URLs, die aus den Links auf diesen Seit...
fragte vor 10 Jahren
-1
Bewertungen
1
Antwort
619
Ansichten
Alle Links einer Website auf einer anderen Website auflisten
Es gibt zwei Websites. 1) www.aa.com 2) www.bb.com Nun gibt es so viele Links zu aa.com und seinen Webseiten auf bb.com aa.com/blhahhaa.html aa.com/beautifulday.html aa.com also möchte ich diese Liste herausfinden. Gibt es dafür irgendwelche Skripte oder Werkzeuge? eine Idee, wie man ein solches W...
fragte Jeegar Patel vor 10 Jahren
1
Bewertungen
1
Antwort
1225
Ansichten
Spiegeln einer Website mit Seiten, die einfaches JavaScript verwenden
Es gibt einfache und großartige Tools zum Herunterladen von Websites, mit denen Sie einen lokalen Spiegel von einfachen Websites ohne JavaScript-Infrastruktur erstellen können. Manchmal gibt es jedoch Fälle, in denen eine Site einfach aussieht (und sogar alt genug ist, um eine echte "Web 1.0" -Seite...
fragte Lyubomyr Shaydariv vor 10 Jahren
-1
Bewertungen
1
Antwort
528
Ansichten
Zusammenstellung einer Liste von Links auf einer Website und deren Gültigkeit
Ich möchte meine Website crawlen und eine Liste der internen und ausgehenden Links sowie des endgültigen Ziels und des HTTP-Codes (zumindest für interne Links) erstellen. Wie kann ich das machen? Bitte beachten Sie: Der Inhalt der Seite interessiert mich nicht, es sei denn, Links darin zu finden.
fragte Malfist vor 10 Jahren