Kann Googlebot URLs / URIs von Apache-Index- / Phantasieindex-Websites crawlen oder abrufen?
Ja.
Ich habe eine Suche bei Google durchgeführt und erwähnt solche Situationen nicht einmal (Crawlen von Websites mit Apache-Index / Phantasie-Index-Layout).
Wahrscheinlich, weil wirklich nichts Besonderes zu erwähnen ist. =)
Die Unfähigkeit, einige oder alle Seiten einer Seite zu analysieren, tritt normalerweise nur bei JavaScript auf, da die meisten Web-Crawler außer Google keinen JavaScript-Code ausführen. Apache gibt Indizes (auch die ausgefallenen Versionen) als einfache HTML-Seiten (kein JavaScript) zurück.
Es ist wahrscheinlich ein Gespräch über Suchmaschinenoptimierung mit reinen Index-Sites zu führen, aber das ist wahrscheinlich auch schon der Fall . Googling " firefox ftp " gibt jedoch als erstes Ergebnis https://ftp.mozilla.org/pub/firefox/releases/ zurück .
Ich weiß, dass ich eine Spinne zu einer Site schicken kann und alle möglichen Dinge finden kann, die nicht verlinkt sind ...
Alles, auf das eine Spinne (oder das, was Sie haben) normalerweise zugreift, ist als URL / URI irgendwo im Code für die geparkten Seiten verlinkt (auch wenn sie für "normale" Besucher nicht sichtbar ist).
Die einzigen Ausnahmen davon können sein:
Links, für die ein JavaScript-Zugriff erforderlich ist (z. B. beim Lazy-Loading), können fortgeschrittene Bots manchmal trotzdem funktionieren, zumindest in Verbindung mit Headless-Browsern.
Links basierend auf dem Brute-Force-URL-Erraten (am häufigsten von böswilligen Skripts / Tools usw.).
Links, die versehentlich aufgrund eines Serverkonfigurationsfehlers oder einer Sicherheitslücke erstellt wurden, die zu Dateien außerhalb des Webstamms führen.
... kann Googlebot also auch mit Websites wie meiner arbeiten?
In Bezug auf den Apache-Index / ausgefallene Indexseiten kann Googlebot alles indizieren, auf das ein normaler (oder sogar ein geschickter) Besucher zugreifen kann.