Hier werden einige Fragen gestellt, ich werde versuchen, sie alle in der richtigen Reihenfolge zu beantworten.
Kann Google (oder eine andere Suchmaschine) angewiesen werden, ein bestimmtes Keyword nur auf diesen 307 Websites GENAU zu suchen?
Schauen Sie sich die Suchoptionen von Google an . Sie können nach einem genauen Begriff suchen, indem Sie ihn wie folgt zitieren. Sie können dann mit der Option nach Domäne filtern (nicht dasselbe wie URL!) site:
. In Ihrem Fall würden Sie die Suchzeichenfolge in diesem Format erstellen:
"keyword" site:site1.com site:site2.com ...site:site307.com
... die Liste mit einem Skript durchgehen ... Aber würde Google nicht denken, dass Sie ein Bot sind?
Ein allgemeiner Ansatz bei der Durchführung mehrerer Google-Suchen durch ein Skript ist das Einfügen von (möglicherweise zufälligen) Verzögerungen, um nicht verdächtig zu wirken.
... diese 307 Webseiten mit wget herunterladen ... Das würde lange dauern.
Wenn Sie diese Websites gelegentlich überprüfen müssen, können Sie eine lokale Kopie der Websites speichern und sie perodisch aktualisieren. Die lokale Suche sollte dann sehr schnell sein. Andernfalls wird Google schneller sein, da es mit zwischengespeicherten Ergebnissen arbeitet und nicht auf Verbindung und Download warten muss. Wenn jedoch keine Website inaktiv ist oder ernsthafte Probleme auftritt, sollte dies in etwa 30 Sekunden erledigt sein. Angenommen, Sie haben eine Liste von URLs in einer Datei mit dem Namen list.txt
, die Sie nur ausführen müssen:
cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'
um übereinstimmende Inhalte
cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'
anzuzeigen oder: für URLs oder: cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'
um beide anzuzeigen .
Verfügt Google nicht über eine integrierte Methode zum Suchen aus einer Liste von URLs?
Ja, es gibt eine benutzerdefinierte Suche :
Mit der benutzerdefinierten Google-Suche haben Sie folgende Möglichkeiten:
- Erstellen Sie benutzerdefinierte Suchmaschinen, die eine bestimmte Sammlung von Websites oder Seiten durchsuchen