quelle:http://www.regex-tester.de/regex_glossar.html
regex glossar – regular expressions
regex glossar
A B D G M P Q R V W Z
A
Alternativen Man kann alternative Ausdrücke mit dem “|”-Symbol zulassen.
Ähnlich wie die Funktion ODER.”(ABC|abc)” bedeutet “ABC” oder “abc”, aber z. B. nicht “Abc”.
B
Backreferences Backreferences sind Rückbezüge, sie beziehen sich also auf einen vorangegangenen Teil des Patterns (in runden Klammern) und enthalten deren Inhalt. Es gibt zwei Syntaxes, die neuere davon ist $n, wobei n für die n-te Klammerngruppe steht.Beispiel:
~(3|4)(.*?)($1)~ oder ~(3|4)(.*?)(\1)~
trifft auf “3text3” und “4text4” zu, aber nicht auf “3text4”.
(3|4) ist also die erste Gruppe und somit $1 bzw. \1.
Am nützlichsten sind Backreferences jedoch bei preg_replace().
D
G
Gier In manchen Anwendungsprogrammen, die mit regulären Ausdrücke umgehen, zum Beispiel in perl, lässt sich die “Gier” (engl. greed) regeln, mit der Zeichen von einem Wiederholungsoperator, also einem Stern oder einem Pluszeichen, “verschlungen” werden. Und zwar arbeiten diese Operatoren normalerweise mit maximaler Gier, können aber gezähmt werden, indem man ihnen ein Fragezeichen anhängt.
Gruppierung Ausdrücke lassen sich mit runden Klammern ( und ) zusammenfassen, also gruppieren.
M
Metacharaktere Metacharaktere stehen für einen bestimmten Teil der Zeichenkette. Die folgende Aufstellung zeigt deren Bedeutungen..
entspricht einen beliebige Zeichen, ausser Newline (\n)
Metazeichen Mit Hilfe dieser Metazeichen kann man die Suche etwas eingrenzen.^ => Suche beginnd am Angang einer Zeile
$ => Suche endet an einer Zeile
| => Alternativen für das Suchmuster, vergleichbar mit ORDER
() => eine Gruppierung
[] => eine Zeichenklasse
{} => Anzahl von Zeichen
und
\ => Backslash
Metazeichen +?.*()^$[]{}|\ aufheben, um sie mit als Suchstring zu benutzen.
P
Pattern Pattern ist der eigentliche Suchteil oder die Such-Schablone.Prinzip:
delimiter pattern delimiter modifer
PCRE Perl Compatible Regular Expressions (kurz PCRE, deutsch Perl-Kompatible Reguläre Ausdrücke) ist eine Programmbibliothek zur Auswertung von Regulären Ausdrücken. Der Name bezieht sich darauf, dass die Syntax der Ausdrücke der Programmiersprache Perl entliehen wurde. Sie entsprechen etwa dem Stand von Perl 5.0, beinhaltet aber auch zusätzliche, im POSIX-Standard definierte Ausdrücke, die auch teilweise erst von Perl 5.10 aufgenommen werden.
POSIX POSIX (Portable Operating System Interface) ist ein gemeinsam von der IEEE und der Open Group für Unix entwickeltes standardisiertes Applikationsebeneninterface, das die Schnittstelle zwischen Applikation und dem Betriebssystem darstellt.
Q
Quantoren Quantoren (auch Quantifizierer oder Wiederholungsfaktoren) erlauben es, den vorherigen Ausdruck in verschiedener Vielfachheit in der Zeichenkette zuzulassen:? : Der voranstehende Ausdruck ist optional, er kann einmal vorkommen, muss es aber nicht, d. h. der Ausdruck kommt null- oder einmal vor. (Dies entspricht {0,1} )
+ : Der voranstehende Ausdruck muss mindestens einmal vorkommen, darf aber auch mehrfach vorkommen. (Dies entspricht {1,} )
* : Der voranstehende Ausdruck darf beliebig oft (auch keinmal) vorkommen. (Dies entspricht {0,} )
{n} : Der voranstehende Ausdruck muss exakt n-mal vorkommen.
{min,} : Der voranstehende Ausdruck muss mindestens min-mal vorkommen.
{,max} : Der voranstehende Ausdruck darf maximal max-mal vorkommen.
{min,max} : Der voranstehende Ausdruck muss mindestens min-mal und darf maximal max-mal vorkommen.
R
Regex RegExp oder Regex (engl. regular expression) ist in der Informatik ein Regulärer Ausdruck einer Zeichenkette, die der Beschreibung von Mengen oder Untermengen von Zeichenketten mit Hilfe syntaktischer Regeln dient. Sie stellen eine Art Filter oder Schablone für Texte da, indem der jeweilige reguläre Ausdruck in Form eines Musters mit dem Text abgeglichen wird. Funktionen in Software wie Suchen und Ersetzen basieren hierauf.
V
Vordefinierte Zeichenklassen Es gibt vordefinierte Zeichenklassen, die allerdings nicht von allen Implementierungen unterstützt werden, da sie lediglich Kurzformen sind und auch durch eine Zeichenauswahl beschrieben werden können.\d : eine Ziffer [0-9]
\D : ein Zeichen, das keine Ziffer ist, also [^\d]
\w : ein Buchstabe, eine Ziffer oder der Unterstrich, also [a-zA-Z_0-9] (und evtl. weitere Buchstaben, z.B. Umlaute)
\W : ein Zeichen, das weder Buchstabe noch Zahl noch Unterstrich ist, also [^\w]
\s : Whitespace; meistens die Klasse der Steuerzeichen \f, \n, \r, \t und \v
\S : ein Zeichen, das kein Whitespace ist [^\s]
W
Z
Zeichenklassen Mit eckigen Klammern lässt sich eine Zeichenauswahl definieren. Der Ausdruck in eckigen Klammern steht dann für genau ein Zeichen aus dieser Auswahl. Innerhalb dieser Zeichenklassendefinitionen haben einige Symbole andere Bedeutungen als im normalen Kontext. Teilweise ist die Bedeutung eines Symbols sogar davon abhängig, wo es sich innerhalb der Klammern befindet. So bedeutet z. B. ein Zirkumflex „^“ am Anfang einer Zeichenklassendefinition, dass die Zeichenklasse negiert/invertiert wird.Beispiele:
[egh] eines der Zeichen e, g oder h
[0-6] eine Ziffer von 0 bis 6 (Bindestriche sind Indikator für einen Bereich)
[a-z] alle Kleinbuchstaben von a bis z
[^a] ein beliebiges Zeichen außer a (^ am Anfang einer Zeichenklasse negiert selbige)
Zeilengrenzen Um an bestimmten Stellen im Text zu suchen, benutzt man häufig die Metazeichen ^ und $.Beispiel:
~^12345$~
Die Zahlen müssen also von Anfang bis Ende der Zeile vorkommen.
~^[0-9].*$~
Findet nur Zeilen, wo am Anfang eine Zahl steht.
Zeilenumbrüche Windows, Linux/Unix, oder MacIntosh haben verschiedene Zeilenumbrüche:Windows: \r\n
\x0D\x0A in hex code
\015\012 in oktal
Linux/Unix: \n
\x0A in hex code
\012 in oktal
MacIntosh: \r
\x0D in hex code
\015 in oktal
|