Suchen Sie ein Stichwort genau in einer bestimmten Liste von Webseiten?

396
user1580348

Ich habe eine Liste von 307 Webseiten-URLs. Kann Google (oder eine andere Suchmaschine) angewiesen werden, ein bestimmtes Keyword nur auf diesen 307 Websites GENAU zu suchen?

Ich habe einige Hinweise gelesen, in denen die Liste mit einem Skript oder ähnlichem durchlaufen wird und eine Google-Suche für jeden Listeneintrag durchgeführt wird. Aber würde Google nicht glauben, dass Sie ein Bot sind und die Suche blockieren?

Eine andere vorgeschlagene Methode war, diese 307 Webseiten mit wget (möglicherweise mithilfe eines Skripts) oder ähnlichem herunterzuladen und dann eine lokale Suche in den heruntergeladenen Webseiten durchzuführen. Dies würde jedoch lange dauern, während eine Google-Suche fast augenblicklich wäre.

Verfügt Google nicht über eine integrierte Methode zum Suchen aus einer Liste von URLs?

2
Das Abrufen der Seiten und das "Grep" -ping sollte ziemlich schnell sein, oder haben Sie keine Zeit mehr? Google kann nach einem exakten Keyword suchen, wenn der Suchbegriff in Anführungszeichen steht. Mit der Option "site:" kann die Suche auf bestimmte Websites beschränkt werden. simlev vor 6 Jahren 0
Ein allgemeiner Ansatz bei der Durchführung mehrerer Google-Suchen durch ein Skript besteht darin, Verzögerungen (möglicherweise zufällig) einzufügen, um nicht verdächtig zu wirken. simlev vor 6 Jahren 0

1 Antwort auf die Frage

2
simlev

Hier werden einige Fragen gestellt, ich werde versuchen, sie alle in der richtigen Reihenfolge zu beantworten.

Kann Google (oder eine andere Suchmaschine) angewiesen werden, ein bestimmtes Keyword nur auf diesen 307 Websites GENAU zu suchen?

Schauen Sie sich die Suchoptionen von Google an . Sie können nach einem genauen Begriff suchen, indem Sie ihn wie folgt zitieren. Sie können dann mit der Option nach Domäne filtern (nicht dasselbe wie URL!) site:. In Ihrem Fall würden Sie die Suchzeichenfolge in diesem Format erstellen:

"keyword" site:site1.com site:site2.com ...site:site307.com 

... die Liste mit einem Skript durchgehen ... Aber würde Google nicht denken, dass Sie ein Bot sind?

Ein allgemeiner Ansatz bei der Durchführung mehrerer Google-Suchen durch ein Skript ist das Einfügen von (möglicherweise zufälligen) Verzögerungen, um nicht verdächtig zu wirken.


... diese 307 Webseiten mit wget herunterladen ... Das würde lange dauern.

Wenn Sie diese Websites gelegentlich überprüfen müssen, können Sie eine lokale Kopie der Websites speichern und sie perodisch aktualisieren. Die lokale Suche sollte dann sehr schnell sein. Andernfalls wird Google schneller sein, da es mit zwischengespeicherten Ergebnissen arbeitet und nicht auf Verbindung und Download warten muss. Wenn jedoch keine Website inaktiv ist oder ernsthafte Probleme auftritt, sollte dies in etwa 30 Sekunden erledigt sein. Angenommen, Sie haben eine Liste von URLs in einer Datei mit dem Namen list.txt, die Sie nur ausführen müssen:

cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'um übereinstimmende Inhalte
cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'anzuzeigen oder: für URLs oder: cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'um beide anzuzeigen .


Verfügt Google nicht über eine integrierte Methode zum Suchen aus einer Liste von URLs?

Ja, es gibt eine benutzerdefinierte Suche :

Mit der benutzerdefinierten Google-Suche haben Sie folgende Möglichkeiten:
- Erstellen Sie benutzerdefinierte Suchmaschinen, die eine bestimmte Sammlung von Websites oder Seiten durchsuchen