Screen Scraper-Vorlagen für verschiedene Websites

573
intuited

Ich suche speziell nach einer bequemen Möglichkeit, Beiträge von dieser und anderen ähnlichen Websites lokal zu archivieren. Ich möchte die Frage selbst von den Antworten trennen oder die Frage zuschneiden und speichern, wobei der Seitentitel erhalten bleibt. Natürlich muss ich das Menü oder die verschiedenen anderen Benutzeroberflächen der Benutzeroberfläche nicht speichern.

Der beste Weg, dies zu tun, scheint zu sein, eine XSLT-Vorlage mit einer Übereinstimmung der URL zu verknüpfen und diese Vorlage zu verwenden, um die verschiedenen relevanten Informationen abzurufen und diese zu formatieren.

Meine zweiteilige Frage:

  • Gibt es ein speziell für diese Aufgabe entwickeltes Werkzeug? IE etwas, das eine URL verwendet und anhand einer Zuordnung von Pfadanpassungsausdrücken in Vorlagen überprüft und das Ergebnis der Anwendung der Vorlage auf diese Ressource ausgibt?

    xmlto scheint am weitesten von dort entfernt zu sein und könnte wahrscheinlich nur von einem Skript aus aufgerufen werden, das die Musteranpassung durchführt, aber etwas bereits Integriertes wäre bequemer.

  • Ist eine solche URL_pattern-to-XSLT_template-Karte irgendwo öffentlich verfügbar?

Frage 2.5: Ist es legal, dies mit Websites wie dieser zu tun, die öffentliche Lizenzen für ihren Inhalt haben?

1

1 Antwort auf die Frage

0
BloodPhilia

Antwort auf Frage 2.5:

Es ist legal, wenn Sie es in keiner Weise vertreiben oder veröffentlichen. Wenn ja, müssen Sie auf die Originalseite verweisen. Die meisten Websites verfügen über eine Lizenz, die auf Benutzerbeiträgen basiert, die unter cc-wiki lizenziert sind, wobei eine Zuordnung erforderlich ist.