Speichern von Webseiten in Firefox als Text- oder RTF-Dateien, die die grundlegende Formatierung und Positionierung beibehalten

923
RockPaperLizard

Ist es in Firefox möglich, Seiten mit Text unter Beibehaltung der grundlegenden Formatierung und Positionierung zu speichern, jedoch keinen ausführbaren Code (JavaScript) zu speichern?

Es muss nicht perfekt sein, nur eine Annäherung.

Der Text muss durchsuchbar sein, daher reicht es nicht aus, einen Screenshot zu machen.

Antworten, die sich auf Windows beziehen, werden bevorzugt.

Was ich probiert habe:

  1. Kopieren und in den Notizblock einfügen.
    Ergebnis: Alle Textformatierungen und -positionierungen wurden wie erwartet verloren.
  2. Kopieren und fügen Sie sie in OpenOffice, LibreOffice und Wordpad ein.
    Ergebnis: Es wurde keine ausreichende Textpositionierung beibehalten. Insbesondere wurden links und rechts ausgerichteter Text linksbündig.
  3. Speichern Sie als Textdatei in Firefox.
    Ergebnis: Gleich wie bei # 1.
  4. Speichern Sie als reine HTML-Datei in Firefox.
    Ergebnis: Gleich wie bei # 2.
  5. Speichern Sie als vollständige HTML-Datei in Firefox.
    Ergebnis: Aus irgendeinem Grund meldet Firefox für viele Seiten einen Fehler, wahrscheinlich aufgrund der Art, wie die Seiten über HTTPS bereitgestellt werden.

Meine aktuelle Problemumgehung ist eine PITA. Ich lade den HTML-Code der Seite und jedes CSS herunter. Dann bearbeite ich jede HTML-Datei manuell, um auf die lokale Kopie der CSS-Dateien zu verweisen. Zum Schluss entferne ich alle JavaScript-Verweise. Dies ist ziemlich zeit- und arbeitsaufwendig und führt zu einer Abhängigkeit von CSS-Dateien anstelle einer einzelnen reinen Text- oder RTF-Datei.

Ich habe mir die Mozilla Archive Format-Erweiterung angesehen, aber ich denke, es speichert immer alles JavaScript im Archiv. Ich bevorzuge eine flache Text- oder RTF-Datei (Rich Text) ohne Abhängigkeiten und definitiv kein JavaScript.

0
Ich glaube, der übliche Prozess ist die manuelle Arbeit. Es tut uns leid. Ich vermute, Sie werden keine sehr befriedigende Antwort sehen. Wie entfernen Sie jedoch alle JavaScript-Verweise? Das sollte ziemlich automatisierbar sein. Ersetzen Sie beispielsweise `tags. Ich mag es nicht, dass ich alle CSS-Dateien aufbewahren muss. Deshalb werde ich manchmal die wichtigen CSS-Stile kopieren und in den HTML-Code einfügen, um sie direkt anzuwenden. Es ist ziemlich zeitaufwändig. Das Ausschneiden und Einfügen in ein Textverarbeitungsprogramm kommt so nahe, aber der Verlust der linken und rechten Ausrichtung führt zum Verlust wichtiger Positionen, insbesondere bei Texttranskriptionen. TOOGAM vor 7 Jahren 0
@ TOOGAM Ja, ich mache solche Änderungen oder bearbeite einfach alle ` ` Tags. Ich mag es nicht, dass ich alle CSS-Dateien aufbewahren muss. Deshalb werde ich manchmal die wichtigen CSS-Stile kopieren und in den HTML-Code einfügen, um sie direkt anzuwenden. Es ist ziemlich zeitaufwändig. Das Ausschneiden und Einfügen in ein Textverarbeitungsprogramm kommt so nahe, aber der Verlust der linken und rechten Ausrichtung führt zum Verlust wichtiger Positionen, insbesondere bei Texttranskriptionen. RockPaperLizard vor 7 Jahren 0
Verwenden Sie Firefox? Können Sie einen anderen Web Scraper wie cURL verwenden? TOOGAM vor 7 Jahren 0
@ TOOGAM Gute Frage. Ich bevorzuge Firefox, aber es muss nicht verwendet werden. Nur zur Klarstellung, ich habe nur diesen Bedarf für gelegentliche Webseiten (normalerweise 1-5 pro Tag), und ich brauche nur den Text auf der einzelnen Seite (ich muss nicht die gesamte Website oder etwas abkratzen). Die Seiten werden normalerweise über HTTPS bereitgestellt. Normalerweise bin ich an einer Windows-Box, wenn ich dies tun muss. RockPaperLizard vor 7 Jahren 0

0 Antworten auf die Frage