Wie kann ich nur Wortdaten von einer Website kratzen?

Question

Wie kann ich nur Wortdaten von einer Website kratzen?

1161

Staskata 2015-04-27 в 18:01

Ich möchte den gesamten Wortinhalt von einer bestimmten Website herunterladen. Speichern Sie die Ergebnisse in MS Word, Excel oder Notepad und prüfen Sie, welche Wörter am häufigsten und wie oft wiederholt werden.

-3

Was hast du bisher erreicht? Karan vor 9 Jahren 0

2 Antworten auf die Frage

0

Magister Ludi 2015-04-27 в 18:24

Sie können die Datei mit Powershell herunterladen und dann einen HTML-Parser verwenden, um den Text zu extrahieren. Der Powershell-Befehl zum Herunterladen einer Webseite lautet:

Invoke-WebRequest https://google.com -OutFile C:/Users/JohnDoe/Desktop/google.html

Das würde eine HTML-Datei mit dem Namen "google.html" auf Ihrem Desktop speichern (wenn Sie JohnDoe in Ihre Windows-ID ändern). Dann können Sie einen HTML-Parser verwenden. Hier ist ein Link zu einem Wikipedia-Vergleich von HTML-Parsern: http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers

Accepted Answer · 2015-04-27 18:21:53

Das kann schwierig sein - Sie müssen den HTML-Code herunterladen, um den Rest zu erreichen. Zum Glück ist das Problem bereits gelöst. Verwenden Sie Wget. Laden Sie (einschließlich Windows-Binärdateien) hier und das Handbuch hier herunter

Ich habe Ihnen den manuellen Anker für die Option "--accept" gegeben, wodurch die gespeicherten Dateitypen eingeschränkt werden. Sie müssen es mit --mirror verwechseln, und vielleicht einige der Optionen für die maximale Tiefe. Achten Sie auf "Span-Hosts", wenn Sie weniger Informationen erhalten, als Sie benötigen.

Ich denke, das beantwortet die Frage als gestellt - wenn Sie Hilfe beim Zählen von Wörtern wünschen (oder Wort / Excel programmgesteuert in Text umwandeln), ist dies wahrscheinlich eine neue Frage.

Wie kann ich nur Wortdaten von einer Website kratzen?

2 Antworten auf die Frage

Verwandte Probleme