Wie kann ich nur Wortdaten von einer Website kratzen?

1116
Staskata

Ich möchte den gesamten Wortinhalt von einer bestimmten Website herunterladen. Speichern Sie die Ergebnisse in MS Word, Excel oder Notepad und prüfen Sie, welche Wörter am häufigsten und wie oft wiederholt werden.

-3
Was hast du bisher erreicht? Karan vor 9 Jahren 0

2 Antworten auf die Frage

0
Tom Newton

Das kann schwierig sein - Sie müssen den HTML-Code herunterladen, um den Rest zu erreichen. Zum Glück ist das Problem bereits gelöst. Verwenden Sie Wget. Laden Sie (einschließlich Windows-Binärdateien) hier und das Handbuch hier herunter

Ich habe Ihnen den manuellen Anker für die Option "--accept" gegeben, wodurch die gespeicherten Dateitypen eingeschränkt werden. Sie müssen es mit --mirror verwechseln, und vielleicht einige der Optionen für die maximale Tiefe. Achten Sie auf "Span-Hosts", wenn Sie weniger Informationen erhalten, als Sie benötigen.

Ich denke, das beantwortet die Frage als gestellt - wenn Sie Hilfe beim Zählen von Wörtern wünschen (oder Wort / Excel programmgesteuert in Text umwandeln), ist dies wahrscheinlich eine neue Frage.

Ich denke, Sie vermissen den Punkt von OPs Frage: Wie erhält man * nur die Wörter * und nicht HTML-Tags und dergleichen aus dem Quellcode. Zero3 vor 9 Jahren 0
Möglicherweise ja, die Erwähnung eines Wortes könnte ein roter Hering sein! Tom Newton vor 9 Jahren 0
0
Magister Ludi

Sie können die Datei mit Powershell herunterladen und dann einen HTML-Parser verwenden, um den Text zu extrahieren. Der Powershell-Befehl zum Herunterladen einer Webseite lautet:

Invoke-WebRequest https://google.com -OutFile C:/Users/JohnDoe/Desktop/google.html 

Das würde eine HTML-Datei mit dem Namen "google.html" auf Ihrem Desktop speichern (wenn Sie JohnDoe in Ihre Windows-ID ändern). Dann können Sie einen HTML-Parser verwenden. Hier ist ein Link zu einem Wikipedia-Vergleich von HTML-Parsern: http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers