Wenn ein Browser eine Seite normal lädt, lädt er das durch die URL angegebene HTML-Dokument herunter und beginnt mit der Wiedergabe des Codes. Zunächst wird der Kopfabschnitt gelesen und mit dem Laden der dort aufgelisteten Dokumente (in der Regel Skriptdateien, CSS-Stylesheets usw.) begonnen. Es fügt dem Dokument Skriptcode hinzu und rendert das Markup, führt onLoad-Skripts aus, lädt möglicherweise zusätzlichen Remote-Inhalt und wendet schließlich die CSS-Regeln in der richtigen Reihenfolge an. Dies ist eine vollständig gerenderte Seite.
Wenn Sie keine Engine zum Rendern der Seite verwenden (mit der Browserquelle "View Source" oder Tools wie "wget / curl"), erhalten Sie nur das ursprüngliche Markup-Dokument. Es werden keine untergeordneten Links verarbeitet und keine Remote-Quelle importiert.
Wenn Sie den gerenderten Inhalt untersuchen möchten, verwenden Sie im Allgemeinen die Entwicklertools, die in den meisten gängigen Browsern verfügbar sind (normalerweise auf F12, sodass Sie nur darauf tippen können).
Ein Freund von mir hat einmal einen Scraper für eine Site geschrieben, bei der der Inhalt zur Laufzeit von einem CMS-Framework in die Seite eingefügt wurde. Sie musste ein unsichtbares Browsersteuerelement in ihre App einbetten und die Seite vollständig mit Skripten rendern (Flash-Anzeigen ohne Fenster würden einfach aus dem Nichts erscheinen), bevor sie auf die vollständige Quelle zugreifen konnte, um sie auf einen harten Link zum Inhalt zu parsen.