Können reguläre Ausdrücke beim Surfen in URLs verwendet werden?

400
C0deDaedalus

Ich kenne Google Dorks, das erweiterte Suchoperatoren für die Suche nach Schlüsselwörtern im Web verwendet, und Google Dorks ist ohnehin kein Regex.

Aus Neugier habe ich versucht, Platzhalterzeichen in URLs einzufügen, meistens für Bilder auf verschiedenen Websites, die nicht geklappt haben. Die meisten von ihnen zeigten verschiedene HTTP-Fehlercodes, mit Ausnahme von 2-3, die auf eine andere Seite innerhalb der Website umgeleitet wurden.

Einige Beispiele, die nicht funktionierten:

  • Suche nach PDFs. Habe404 : Page Not Found

PDFs Search

  • Bilder suchen. Habe500 : Internal Server Error

Image regex Search

  • Suche nach allen HTML-Seiten auf der Website. Einfach Fehlerseite

HTML Pages Search

  • Youtube konvertiert Zeichen in sichere Hexadezimalzeichen.

Youtube Search

Ein Beispiel, das funktioniert hat (keine Ahnung wie):

Windows Tagged Questions

Linux Tagged Questions

Sehen Sie sich den Question TaggedAbschnitt auf der rechten Seite an, um alle Suchanfragen nach dem Wort anzuzeigenlin*

Ich entschuldige mich, wenn die Frage zu viele Details hat, aber ich finde es angebracht, einige Beispiele zu geben. Ich schließe hier also meine Frage:

  1. Können reguläre Ausdrücke beim Surfen auf beliebige Weise in URLs verwendet werden?

  2. Wenn ja, welche Regeln oder Methoden gibt es?

  3. Auch der Abschnitt "Verwendet" unter Wikipedia-Seite für reguläre Ausdrücke zitiert dies:

    Während reguläre Ausdrücke für Internetsuchmaschinen nützlich sein könnten, könnte die Verarbeitung über die gesamte Datenbank hinweg übermäßige Computerressourcen erfordern, abhängig von der Komplexität und dem Design der regulären Ausdrücke. In vielen Fällen können Systemadministratoren regex-basierte Abfragen intern ausführen, doch die meisten Suchmaschinen bieten der Öffentlichkeit keine Regex-Unterstützung. Bemerkenswerte Ausnahmen: Google Code Search, Exalead. Die Google Codesuche wurde seit Januar 2012 geschlossen. [39] Es verwendete einen Trigramm-Index, um Abfragen zu beschleunigen. [40]

    Ist es so, als könnten wir die Regex-Suche in Suchmaschinen durchführen, aber nicht auf Webseiten?

0
Während Sie ein schönes Beispiel für eine Frage gemacht haben, ist Ihre Frage selbst immer noch verwirrend. Grundsätzlich ist URL nur eine Zeichenfolge und wie sie auf der Empfangsseite analysiert werden würde, hängt davon ab, wie sie auf der Empfangsseite gehandhabt wurde. In den meisten Fällen ist dies die Antwort - NEIN. Wenn Sie sich speziell mit der Verwendung von Modifikatoren für eine bestimmte Suchmaschine befassen, ist dies eine andere Geschichte, und AFAIK google unterstützt keine Regex mit vollem Funktionsumfang Alex vor 5 Jahren 0

1 Antwort auf die Frage

1
grawity

Im Allgemeinen nein. (Auch Platzhalter und reguläre Ausdrücke sind nicht dasselbe.)

Jede Website entscheidet völlig selbst, wie der Pfad und die Abfrage interpretiert werden sollen. Pfade können tatsächlichen Dateien entsprechen oder abstrakten Ressourcen wie "Fragen" oder "Posts" zugeordnet werden. (SuperUser hat z. B. keinen Ordner questionsmit nummerierten Unterordnern - der Pfad gibt nur an, welche Antwort generiert werden soll.)

Dies bedeutet auch, dass jede Website entscheidet, ob Platzhalter (oder reguläre Ausdrücke oder andere Filtermethoden) unterstützt werden oder nicht. Normalerweise erfordert das Hinzufügen dieser Funktion eine zusätzliche Programmierung der Website.

Wie Sie festgestellt haben, hat Super User Platzhalter für das Durchsuchen von Tags implementiert. Es ist hilfreich, alle Windows-bezogenen Fragen zu finden (und war wahrscheinlich einfacher zu implementieren als hierarchische Tags).

Zum Beispiel sind YouTube-Video-IDs völlig zufällig. Daher ist es nicht sinnvoll, alle Videos aufzulisten, deren IDs mit RgK...einem anderen Präfix beginnen. YouTube hat das also nicht umgesetzt.

"Einfache" Webserver, die nur normale .html-Dateien bedienen, könnten diese Funktion implementieren, da sie häufig bereits über automatische Verzeichnislisten verfügen. Viele Websitebesitzer möchten dies jedoch nicht - sie haben möglicherweise "nicht gelistete" Seiten, die beispielsweise nur wenigen bekannt sind.

(In Apache httpd gibt es eine ähnliche Funktion, mit der Sie auch dann eine vollständige Verzeichnisliste abrufen können, wenn eine index.html-Datei vorhanden ist. Sie muss jedoch standardmäßig deaktiviert werden, da viele Leute auf index.html als zuverlässige Methode zurückgreifen diese Einträge zu deaktivieren.)

Ihre Antwort deckt meine Beispielszenarien ab und ich muss wirklich den Unterschied zwischen Regex und WildCards kennen. C0deDaedalus vor 5 Jahren 0
Ich frage mich, woher wissen Sie, dass ** SuperUser keinen Ordner namens "Fragen" ** hat? Haben Sie das `dirb`-Tool verwendet? C0deDaedalus vor 5 Jahren 0
@ C0deDaedalus .htaccess-Dateien und Weiterleitungen suchen. Es zeigt Ihnen, wie Sie alles basierend auf verschiedenen Mustern umleiten können. Ich glaube jedoch, dass eine Art Regex in .htaccess verwendet werden kann. LPChip vor 5 Jahren 0