Web-Scraping / Crawlen einer bestimmten Website

1048
Jamie

Ich versuche, 1265-HTML-Dateien auf einmal zu kratzen, um Namen und Beschreibungen von Elementen zu erhalten, die ich auf einer Website habe.
Ich habe die Erlaubnis des Großhändlers, Daten dort zu kopieren, aber ich möchte nicht Tage damit verbringen, Beschreibungen zu erhalten. Gibt es eine Möglichkeit, die Daten in folgendem Format zu kratzen?

 <h1 class="CWproductName">ADINA BLACK TV UNIT</h1> 

und

 <div id="CWproductInfo">   <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br /> <p class="CWcontShop"> 

Ich möchte die Informationen zwischen kopieren

 <div id="CWproductInfo"> and <p class="CWcontShop"> 

also bin ich mit

 <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>  <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br /> 

aber von mehreren Seiten auf einmal noch besser, wenn es in eine Tabelle eingefügt werden könnte

0
Sie müssen ein Parser-Skript schreiben, aber es scheint trivial zu sein, wenn Sie mit bash / powershell oder Python oder was auch immer anständig sind. Frank Thomas vor 9 Jahren 0

1 Antwort auf die Frage

1
Mike Honey

Ich würde das Power Query Add-In dazu ausprobieren - es kann Webseiten durchlaufen und Daten daraus extrahieren, sofern die Seiten und ihre URLs konsistent sind.

Hier ist ein Beispiel:

http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/