regex

quelle:http://www.regex-tester.de/regex_glossar.htmlRegex Tester
regex glossar – regular expressions

regex glossar

A   B   D   G   M   P   Q   R   V   W   Z  

A

    Alternativen Man kann alternative Ausdrücke mit dem “|”-Symbol zulassen.
    Ähnlich wie die Funktion ODER.”(ABC|abc)” bedeutet “ABC” oder “abc”, aber z. B. nicht “Abc”.

B

    Backreferences Backreferences sind Rückbezüge, sie beziehen sich also auf einen vorangegangenen Teil des Patterns (in runden Klammern) und enthalten deren Inhalt. Es gibt zwei Syntaxes, die neuere davon ist $n, wobei n für die n-te Klammerngruppe steht.Beispiel:

    ~(3|4)(.*?)($1)~ oder ~(3|4)(.*?)(\1)~
    trifft auf “3text3” und “4text4” zu, aber nicht auf “3text4”.

    (3|4) ist also die erste Gruppe und somit $1 bzw. \1.
    Am nützlichsten sind Backreferences jedoch bei preg_replace().

D

    Delimiter Der Delimiter gibt das Trennzeichen an von der der Regex von den Modifiers getrennt werden. Dieses Trennzeichen muss ein nicht Alphanumerisches-Zeichen sein, darf also kein Buchstabe und keine Zahl sein. Man benutzt z.B. die Zeichen # und die in Perl üblichen Zeichen /.Hinweis:
    Es darf aber kein Escape Zeichen (\) sein !
    regex fehler delimiter

    Prinzip:
    delimiter pattern delimiter modifer

G

    Gier In manchen Anwendungsprogrammen, die mit regulären Ausdrücke umgehen, zum Beispiel in perl, lässt sich die “Gier” (engl. greed) regeln, mit der Zeichen von einem Wiederholungsoperator, also einem Stern oder einem Pluszeichen, “verschlungen” werden. Und zwar arbeiten diese Operatoren normalerweise mit maximaler Gier, können aber gezähmt werden, indem man ihnen ein Fragezeichen anhängt.

    Gruppierung Ausdrücke lassen sich mit runden Klammern ( und ) zusammenfassen, also gruppieren.

M

    Metacharaktere Metacharaktere stehen für einen bestimmten Teil der Zeichenkette. Die folgende Aufstellung zeigt deren Bedeutungen..
    entspricht einen beliebige Zeichen, ausser Newline (\n)

    Metazeichen Mit Hilfe dieser Metazeichen kann man die Suche etwas eingrenzen.^ => Suche beginnd am Angang einer Zeile
    $ => Suche endet an einer Zeile
    | => Alternativen für das Suchmuster, vergleichbar mit ORDER
    () => eine Gruppierung
    [] => eine Zeichenklasse
    {} => Anzahl von Zeichen

    und

    \ => Backslash
    Metazeichen +?.*()^$[]{}|\ aufheben, um sie mit als Suchstring zu benutzen.

    Modifer Modifer (Modifikatoren) beschreibt mögliche Modifikatoren in RegEx-Suchmustern.e => interpretiert Ersatzstring bei preg_replace
    i => Groß- und Kleinschreibung ignorieren
    m => ^ und $ über mehrere Zeilen
    s => akzeptiert Zeilenumbruch als Zeichen
    S => Ausführung steigern
    U => Gier unterdrücken
    x => Whitespace im Muster ignorieren
    u => UTF-8 interpretiert

    Prinzip:
    delimiter pattern delimiter modifer

P

    Pattern Pattern ist der eigentliche Suchteil oder die Such-Schablone.Prinzip:
    delimiter pattern delimiter modifer

    PCRE Perl Compatible Regular Expressions (kurz PCRE, deutsch Perl-Kompatible Reguläre Ausdrücke) ist eine Programmbibliothek zur Auswertung von Regulären Ausdrücken. Der Name bezieht sich darauf, dass die Syntax der Ausdrücke der Programmiersprache Perl entliehen wurde. Sie entsprechen etwa dem Stand von Perl 5.0, beinhaltet aber auch zusätzliche, im POSIX-Standard definierte Ausdrücke, die auch teilweise erst von Perl 5.10 aufgenommen werden.

    POSIX POSIX (Portable Operating System Interface) ist ein gemeinsam von der IEEE und der Open Group für Unix entwickeltes standardisiertes Applikationsebeneninterface, das die Schnittstelle zwischen Applikation und dem Betriebssystem darstellt.

Q

    Quantoren Quantoren (auch Quantifizierer oder Wiederholungsfaktoren) erlauben es, den vorherigen Ausdruck in verschiedener Vielfachheit in der Zeichenkette zuzulassen:? : Der voranstehende Ausdruck ist optional, er kann einmal vorkommen, muss es aber nicht, d. h. der Ausdruck kommt null- oder einmal vor. (Dies entspricht {0,1} )
    + : Der voranstehende Ausdruck muss mindestens einmal vorkommen, darf aber auch mehrfach vorkommen. (Dies entspricht {1,} )
    * : Der voranstehende Ausdruck darf beliebig oft (auch keinmal) vorkommen. (Dies entspricht {0,} )
    {n} : Der voranstehende Ausdruck muss exakt n-mal vorkommen.
    {min,} : Der voranstehende Ausdruck muss mindestens min-mal vorkommen.
    {,max} : Der voranstehende Ausdruck darf maximal max-mal vorkommen.
    {min,max} : Der voranstehende Ausdruck muss mindestens min-mal und darf maximal max-mal vorkommen.

R

    Regex RegExp oder Regex (engl. regular expression) ist in der Informatik ein Regulärer Ausdruck einer Zeichenkette, die der Beschreibung von Mengen oder Untermengen von Zeichenketten mit Hilfe syntaktischer Regeln dient. Sie stellen eine Art Filter oder Schablone für Texte da, indem der jeweilige reguläre Ausdruck in Form eines Musters mit dem Text abgeglichen wird. Funktionen in Software wie Suchen und Ersetzen basieren hierauf.

V

    Vordefinierte Zeichenklassen Es gibt vordefinierte Zeichenklassen, die allerdings nicht von allen Implementierungen unterstützt werden, da sie lediglich Kurzformen sind und auch durch eine Zeichenauswahl beschrieben werden können.\d : eine Ziffer [0-9]
    \D : ein Zeichen, das keine Ziffer ist, also [^\d]
    \w : ein Buchstabe, eine Ziffer oder der Unterstrich, also [a-zA-Z_0-9] (und evtl. weitere Buchstaben, z.B. Umlaute)
    \W : ein Zeichen, das weder Buchstabe noch Zahl noch Unterstrich ist, also [^\w]
    \s : Whitespace; meistens die Klasse der Steuerzeichen \f, \n, \r, \t und \v
    \S : ein Zeichen, das kein Whitespace ist [^\s]

W

    Wortgrenzen Für Wortgrenzen steht \b (boundary) zur Verfügung.Beispiel:

    \b.*?\b findet alles was als Wortgrenze erkannt wird.

Z

    Zeichenklassen Mit eckigen Klammern lässt sich eine Zeichenauswahl definieren. Der Ausdruck in eckigen Klammern steht dann für genau ein Zeichen aus dieser Auswahl. Innerhalb dieser Zeichenklassendefinitionen haben einige Symbole andere Bedeutungen als im normalen Kontext. Teilweise ist die Bedeutung eines Symbols sogar davon abhängig, wo es sich innerhalb der Klammern befindet. So bedeutet z. B. ein Zirkumflex „^“ am Anfang einer Zeichenklassendefinition, dass die Zeichenklasse negiert/invertiert wird.Beispiele:

    [egh] eines der Zeichen e, g oder h
    [0-6] eine Ziffer von 0 bis 6 (Bindestriche sind Indikator für einen Bereich)
    [a-z] alle Kleinbuchstaben von a bis z
    [^a] ein beliebiges Zeichen außer a (^ am Anfang einer Zeichenklasse negiert selbige)

    Zeilengrenzen Um an bestimmten Stellen im Text zu suchen, benutzt man häufig die Metazeichen ^ und $.Beispiel:

    ~^12345$~
    Die Zahlen müssen also von Anfang bis Ende der Zeile vorkommen.

    ~^[0-9].*$~
    Findet nur Zeilen, wo am Anfang eine Zahl steht.

    Zeilenumbrüche Windows, Linux/Unix, oder MacIntosh haben verschiedene Zeilenumbrüche:Windows: \r\n
    \x0D\x0A in hex code
    \015\012 in oktal

    Linux/Unix: \n
    \x0A in hex code
    \012 in oktal

    MacIntosh: \r
    \x0D in hex code
    \015 in oktal


© 2005 – 2008 CIX88 | Page URL: http://www.regex-tester.de/regex_glossar.html | Projekte | CIX Blog