Extrahieren Sie Text aus dem Web

1734
martin.malek

Ich bin auf der Suche nach einer einfachen Maut, die das Web durchsuchen kann, dem ich es gebe, und alle Textelemente daraus extrahieren kann. Es wäre schön, wenn es geht: Nur Text, Alt und Titel für Bilder, Kopfzeile. Alle separat, wenn möglich. Die Ausgabe sollte irgendwie durchsuchbar sein oder Textdateien (xml) für jede durchforstete Seite sein. Ich brauche diesen Text, um sie an Übersetzer weiterzugeben.

0
Es gibt viele Webcrawler. Hier sind einige - [opensource] (http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers) und [Python] (http://stackoverflow.com/questions/419235/anyone-know-of- a-good-python-based-web-crawler-that-i-könnten-verwenden Praveen vor 11 Jahren 0

1 Antwort auf die Frage

2
Janne Pikkarainen

Der gute alte Lynx kann Ihnen die meisten gewünschten Funktionen bieten. Versuchen Sie es lynx -dump http://superuser.com/zum Beispiel.

Sie können auch wgetfür das rekursive Crawlen der benötigten Sites verwenden und die Dateien dann mit verschiedenen verfügbaren Konvertern wie htmltidy verarbeiten .