Empirische Verteilungsfunktion

Eine empirische Verteilungsfunktion – auch Summenhäufigkeitsfunktion oder (empirische) Verteilungsfunktion der Stichprobe genannt – ist in der beschreibenden Statistik und der Stochastik eine Funktion, die jeder reellen Zahl $x$ den Anteil der Stichprobenwerte, die kleiner oder gleich $x$ sind, zuordnet. Die Definition der empirischen Verteilungsfunktion kann in verschiedenen Schreibweisen erfolgen.

Definition

Allgemeine Definition

Wenn $x_{1},\ldots ,x_{n}$ die Beobachtungswerte in der Stichprobe (die Stichprobenwerte) sind, dann ist die empirische Verteilungsfunktion definiert als

F_{n}(x):={\frac {{\text{Anzahl der Beobachtungswerte in der Stichprobe}}\leq x}{n}}={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{(\infty ,x]}(x_{i}),\quad x\in \mathbb {R}

,

wobei $\mathbf {1} _{A}$ die Indikatorfunktion einer Menge $A\subseteq \mathbb {R}$ bezeichnet, d. h.

\mathbf {1} _{A}(x)={\begin{cases}1,&{\text{falls }}x\in A\\0,&{\text{falls }}x\notin A\end{cases}},\quad x\in \mathbb {R}

.

Alternative Darstellungen

Mit $x_{1:n}\leq x_{2:n}\leq \dots \leq x_{n:n}$ seien die aufsteigend geordneten Beobachtungswerte bezeichnet – sie bilden die so genannte geordnete Stichprobe –, dann ist

F_{n}(x)={\begin{cases}0,&{\text{falls }}x<x_{1:n},\\{\frac {1}{n}}\sum _{j=1}^{i}\mathbf {1} _{(\infty ,x]}(x_{j:n}),&{\text{falls }}x_{i:n}\leq x<x_{i+1:n},i\in \{1,\ldots ,n-1\},\\1,&{\text{falls }}x_{n:n}\leq x.\end{cases}}

Alternativ lässt sich die empirische Verteilungsfunktion mit den beobachteten, voneinander verschiedenen Merkmalswerten $a_{1}<\ldots <a_{k}$ und den zugehörigen relativen Häufigkeiten $h_{1},\dotsc ,h_{k}$ in der Stichprobe bestimmen:

F_{n}(x)={\begin{cases}0,&{\text{falls }}x<a_{1},\\\sum _{j=1}^{i}h_{j},&{\text{falls }}a_{i}\leq x<a_{i+1},~i\in \{1,\ldots ,k-1\},\\1,&{\text{falls }}a_{k}\leq x.\end{cases}}

Die Funktion

F_{n}

ist damit eine monoton wachsende rechtsstetige Treppenfunktion mit Sprüngen der Höhe

h_{j}

an den Stellen

a_{j}

.

Eine alternative Darstellung, die manchmal auch zur Definition verwendet wird, ergibt sich mit

F_{n}(x)={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{(\infty ,x]}(x_{i})={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{[x_{i},\infty )}(x).

Während die erste Summe verdeutlicht, dass die empirische Verteilungsfunktion

F_{n}

an jeder Stelle

x

ein arithmetischer Mittelwert der transformierten Beobachtungen

\mathbf {1} _{(\infty ,x]}(x_{i})

ist, betont die zweite Summendarstellung die funktionale Abhängigkeit von

x

und stellt die Funktion

F_{n}

als arithmetisches Mittel von

n

empirischen Verteilungsfunktionen dar, da

x\mapsto \mathbf {1} _{[x_{i},\infty )}(x)

für

x\in \mathbb {R}

die empirische Verteilungsfunktion eines einzelnen beobachteten Wertes

x_{i}

ist.

In bestimmten Anwendungsbereichen, z. B. in Physik und Informatik, erfolgt eine symbolische Darstellung und Interpretation von $F_{n}$ als Integral. Dazu wird die Dirac-Delta-Distribution $\delta$ verwendet, die eine verallgemeinerte Funktion im Sinn der Distributionentheorie ist und die Eigenschaft

\int _{-\infty }^{\infty }\delta (x)f(x)\mathrm {d} x=f(0)

besitzt. Es gilt dann

F_{n}(x)=\int _{-\infty }^{x}{\frac {1}{n}}\sum _{i=1}^{n}\delta (x_{i}-y)dy={\frac {1}{n}}\sum _{i=1}^{n}\int _{-\infty }^{x}\delta (x_{i}-y)dy={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{(\infty ,x]}(x_{i}).

Definition für klassierte Daten

Manchmal liegen Daten nur klassiert vor, d. h. es sind $J$ Klassen mit Klassenuntergrenzen $x_{j}^{u}$ , Klassenobergrenzen $x_{j}^{o}$ und relativen Klassenhäufigkeiten $h_{j}$ gegeben, $j=1,\ldots ,J$ .

Dann wird die Verteilungsfunktion definiert als

F_{n}(x):={\begin{cases}0,&{\text{falls }}x<x_{1}^{u},\\\sum _{j=1}^{i-1}h_{j}+{\frac {x-x_{i}^{u}}{x_{i}^{o}-x_{i}^{u}}}h_{i},&{\text{falls }}x_{i}^{u}\leq x<x_{i}^{o},~i\in \{1,\ldots ,J\},\\1,&{\text{falls }}x_{J}^{o}\leq x.\end{cases}}

An den Klassenober- und -untergrenzen stimmt die Definition mit der Definition für unklassierte Daten überein, in den Bereichen dazwischen jedoch findet nun eine lineare Interpolation statt (siehe auch Summenhäufigkeitspolygon), bei der man unterstellt, dass die Beobachtungen innerhalb der Klassen gleichmäßig verteilt sind. Empirische Verteilungsfunktionen klassierter Daten sind damit (ebenso wie Verteilungsfunktionen stetiger Wahrscheinlichkeitsverteilungen, z. B. der Normalverteilung) zwar stetig, doch nur zwischen den Klassengrenzen differenzierbar, wobei ihr Anstieg der Höhe der jeweiligen Säule des zugrundeliegenden Histogramms entspricht.

Zu beachten ist dabei allerdings, dass die Intervallgrenzen klassierter Daten nach Möglichkeit so gewählt werden, dass die beobachteten Merkmalsausprägungen zwischen und nicht (wie im Fall unklassierter Daten) auf den Intervallgrenzen liegen, wodurch je nach Wahl der Klassengrenzen für ein und denselben Datenbestand ggf. leicht verschiedene Summenhäufigkeitspolygone entstehen können.

Beispiele

Allgemeiner Fall: Unklassierte Daten

Als Beispiel sollen die Pferdetrittdaten von Ladislaus von Bortkewitsch dienen. Im Zeitraum von 1875 bis 1894 starben in 14 Kavallerieregimentern der preußischen Armee insgesamt 196 Soldaten an Pferdetritten:

Jahr	75	76	77	78	79	80	81	82	83	84	85	86	87	88	89	90	91	92	93	94	$\sum$
Tote	3	5	7	9	10	18	6	14	11	9	5	11	15	6	11	17	12	15	8	4	196

Schreibt man die Tabelle mit den Merkmalsausprägungen und relativen Häufigkeiten auf, dann ergibt sich

$x_{i}$	3	4	5	6	7	8	9	10	11	12	14	15	17	18
Jahre	1	1	2	2	1	1	2	1	3	1	1	2	1	1
$h_{i}$	0,05	0,05	0,10	0,10	0,05	0,05	0,10	0,05	0,15	0,05	0,05	0,10	0,05	0,05
$F_{n}(x_{i})$	0,05	0,10	0,20	0,30	0,35	0,40	0,50	0,55	0,70	0,75	0,80	0,90	0,95	1,00

Die letzte Zeile enthält den Wert der Verteilungsfunktion an der entsprechenden Stelle $x=x_{i}$ . Beispielsweise an der Stelle $x=6{,}5$ ergibt sich $F_{n}(6{,}5)=0{,}3$ .

Klassierte Daten

Klassiert man die Daten, so erhält man folgende Datentabelle. Die Grafik dazu findet man bei der Definition.

ab $x_{i}^{u}$	2	4	6	8	10	12	14	16
bis $x_{i}^{o}$	4	6	8	10	12	14	16	18
$h_{i}$	0,10	0,20	0,10	0,15	0,20	0,05	0,10	0,10
$F_{n}(x_{i}^{o})$	0,10	0,30	0,40	0,55	0,75	0,80	0,90	1,00

Die letzte Zeile enthält den Wert der Verteilungsfunktion an der entsprechenden Stelle $x=x_{i}^{o}$ . An der Stelle $x=6{,}5$ ergibt sich $F_{n}(6{,}5)=0{,}3+{\tfrac {6{,}5-6}{8-6}}\cdot 0{,}1=0{,}325$ .

Empirische Verteilungsfunktion als zufällige Funktion

Wenn die beobachteten Werte $x_{1},\ldots ,x_{n}$ als realisierte Werte von Zufallsvariablen $X_{1},\ldots ,X_{n}$ mit gemeinsamer $n$ -dimensionaler Wahrscheinlichkeitsverteilung aufgefasst werden, so ist die aus den beobachteten Werten gebildete empirische Verteilungsfunktion

F_{n}(x)={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{(\infty ,x]}(x_{i}),\quad x\in \mathbb {R}

eine realisierte Funktion der zufälligen empirischen Verteilungsfunktion

{\tilde {F}}_{n}(x):={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{(\infty ,x]}(X_{i}),\quad x\in \mathbb {R} .

Damit definiert die Abbildung $x\mapsto {\tilde {F}}_{n}(x)$ einen stochastischen Prozess, der auch durch die indizierte Familie von Zufallsvariablen $({\tilde {F}}_{n}(x))_{x\in \mathbb {R} }$ charakterisiert werden kann. Realisierungen (Pfade) dieses Prozesses sind nichtstochastische Verteilungsfunktionen $F_{n}$ .

Schätzung

Im inferenztheoretischen Zusammenhang werden die beobachteten Werte $x_{1},\ldots ,x_{n}$ als realisierte Werte von stochastisch unabhängigen und identisch verteilten Zufallsvariablen $X_{1},\ldots ,X_{n}$ aufgefasst, die jeweils dieselbe unbekannte Verteilungsfunktion $F$ haben. Die aus den beobachteten Werten gebildete empirische Verteilungsfunktion $F_{n}$ ist dann eine konkrete Schätzung für $F$ und die zufälligen empirische Verteilungsfunktion ${\tilde {F}}_{n}$ ist ein Schätzer für die Verteilungsfunktion $F$ .

Endliche und asymptotische Eigenschaften der Verteilung von ${\tilde {F}}_{n}$ werden in der Theorie der empirischen Prozesse untersucht. Dabei ist

G_{n}(x)={\sqrt {n}}({\tilde {F}}_{n}(x)-F(x)),\quad x\in \mathbb {R}

das Standardbeispiel eines empirischen Prozesses, dessen asymptotische Verteilung (für $n\to \infty$ ) unter bestimmten Voraussetzungen durch eine Brownsche Brücke charakterisiert werden kann.

Eigenschaften für endlichen Stichprobenumfang

Für stochastisch unabhängige und identisch verteilte Zufallsvariablen $X_{1},\ldots ,X_{n}$ , die jeweils dieselbe Verteilungsfunktion $F$ haben, gelten folgende Aussagen für endlichen fixierten Stichprobenumfang $n\in \mathbb {N}$ :

Für jede Stelle $x\in \mathbb {R}$ ist $\mathbf {1} _{(\infty ,x]}(X_{i})$ eine Bernoulli-verteilte Zufallsvariable mit dem Bernoulli-Parameter $F(x)$ .
Für jede Stelle $x\in \mathbb {R}$ ist $n{\tilde {F}}_{n}(x)$ eine binomialverteilte Zufallsvariable. Es gilt:

n{\tilde {F}}_{n}(x)\sim \mathrm {Bin} (n,F(x)).

Für jede Stelle $x\in \mathbb {R}$ gilt:

\mathbb {E} [{\tilde {F}}_{n}(x)]=F(x).

{\tilde {F}}_{n}(x)

ist also eine erwartungstreue Schätzfunktion für

F(x)

.

Für jede Stelle $x\in \mathbb {R}$ gilt:

\mathrm {Var} [{\tilde {F}}_{n}(x)]={\frac {F(x)(1-F(x))}{n}}.

Für jede Stelle $x\in \mathbb {R}$ und die Zufallsvariable

G_{n}(x):={\sqrt {n}}({\tilde {F}}_{n}(x)-F(x))

gilt:

\mathbb {E} [G_{n}(x)]=0,\quad \mathrm {Var} [G_{n}(x)]=F(x)(1-F(x)).

Die Verteilung der reellwertigen Zufallsvariablen

D_{n}:=\sup _{x\in \mathbb {R} }|{\tilde {F}}_{n}(x)-F(x)|,

welche die (zufällige) maximale Abweichung der zufälligen empirischen Verteilungsfunktion

{\tilde {F}}_{n}

von der Verteilungsfunktion

F

angibt, hängt für eine stetige Verteilungsfunktion

F

nicht von

F

ab. Die Stichprobenfunktion

D_{n}

ist also bezüglich der Klasse aller stetigen Verteilungsfunktionen eine verteilungsfreie Statistik, die Grundlage des Kolmogorow-Smirnow-Anpassungstests ist.

Konvergenzeigenschaften

Für stochastisch unabhängige und identisch verteilte Zufallsvariablen $X_{1},\ldots ,X_{n}$ , die jeweils dieselbe Verteilungsfunktion $F$ haben, gelten folgende Konvergenzaussagen für $n\to \infty$ :

Das starke Gesetz der großen Zahlen sichert zu, dass für jeden Wert $x$ die Zufallsvariable ${\tilde {F}}_{n}(x)$ fast sicher gegen die Verteilungsfunktion $F$ an der Stelle $x$ konvergiert:

{\tilde {F}}_{n}(x)\ \xrightarrow {f.s.} \ F(x).

Damit ist

{\tilde {F}}_{n}(x)

ein stark konsistenter Schätzer für

F(x)

. Die zufällige empirische Verteilungsfunktion

{\tilde {F}}_{n}

konvergiert also punktweise fast sicher gegen die Verteilungsfunktion

F

.

Für alle $x\in \mathbb {R}$ gilt:

{\sqrt {n}}({\tilde {F}}_{n}(x)-F(x))\xrightarrow {d} {\mathcal {N}}\left(0,F(x)\right(1-F(x))).

Dabei bezeichnet

{\xrightarrow {d}}

die Konvergenz in Verteilung und

{\mathcal {N}}(\mu ,\sigma ^{2})

bezeichnet eine Normalverteilung mit den beiden Parametern

\mu

und

\sigma ^{2}

, die für eine normalverteilte Zufallsvariable deren Erwartungswert und Varianz angeben. Üblich ist auch die Darstellung

{\sqrt {n}}{\frac {{\tilde {F}}_{n}(x)-F(x)}{\sqrt {F(x)(1-F(x))}}}\xrightarrow {d} {\mathcal {N}}(0,1)

mit Konvergenz in Verteilung gegen eine Standardnormalverteilung.

Ein stärkeres Resultat, der Hauptsatz der mathematischen Statistik oder Satz von Glivenko-Cantelli, sagt aus, dass die fast sichere Konvergenz nicht nur punktweise – für jede Stelle $x\in \mathbb {R}$ –, sondern sogar gleichmäßig geschieht:

D_{n}=\|{\tilde {F}}_{n}-F\|_{\infty }\equiv \sup _{x\in \mathbb {R} }{\big |}{\tilde {F}}_{n}(x)-F(x){\big |}\ \xrightarrow {f.s.} \ 0.

Diese Eigenschaft ist die mathematische Begründung dafür, dass es sinnvoll ist, Daten mit einer empirischen Verteilungsfunktion zu beschreiben, und dass Stichprobenziehen mit Zurücklegen insofern grundsätzlich funktioniert, dass die empirische Verteilungsfunktion bei über alle Grenzen wachsendem Stichprobenumfang der empirischen Verteilungsfunktion beliebig nahe kommt.

Kolmogorow zeigte, dass ${\sqrt {n}}D_{n}$ für eine beliebige stetige Verteilungsfunktion $F$ gegen die Kolmogorow-Verteilung konvergiert.
Die Dvoretzky–Kiefer–Wolfowitz Ungleichung besagt

P\left(D_{n}>\varepsilon \right)\leq Ce^{-2n\varepsilon ^{2}}\qquad {\text{für alle }}\varepsilon >0

mit einer unspezifierten Konstante

C>0

und macht eine Aussage darüber, mit welcher Geschwindigkeit die Konvergenz von

D_{n}

gegen Null stattfindet. Diese Konstante wurde später durch Massard als bestmögliche Konstante

C=2

näher spezifiziert.

Anmerkung zur Notation

In theoretischen Arbeiten wird häufig die zufällige empirische Verteilungsfunktion mit $F_{n}$ bezeichnet.
In eher wahrscheinlichkeitstheoretisch als statistisch orientierten Darstellungen wird die Bernoulli-verteilte Zufallsvariable $\mathbf {1} _{(\infty ,x]}(X_{i})$ in der Form $\mathbf {1} _{\{X_{i}\leq x\}}$ notiert, wobei $\{X_{i}\leq x\}$ eine abkürzende Notation für das Ereignis $\{\omega \mid X_{i}(\omega )\leq x\}\subseteq \Omega$ ist und $X_{i}$ als Funktion auf einem abstrakten Wahrscheinlichkeitsraum $(\Omega ,{\mathcal {F}},P)$ aufgefasst wird.

Empirische Verteilung

Empirische Verteilung für gegebene beobachtete Werte

Die empirische Verteilungsfunktion ist die Verteilungsfunktion der empirischen Verteilung $P_{n}$ , die durch

P_{n}(B)={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{B}(x_{i}),\quad B\subseteq \mathbb {R}

definiert ist und von den beobachteten Werten $x_{1},\ldots ,x_{n}$ abhängt.

Wenn die $n$ beobachteten Werte paarweise voneinander verschieden sind, dann ist die empirische Verteilung eine diskrete Verteilung, die jedem Beobachtungspunkt den Wert $1/n$ zuordnet, d. h. $P_{n}({x_{i}})=1/n$ für $i=1,\dots ,n$ . Falls bestimmte Werte mehrfach auftreten, ordnet die empirische Verteilung der entsprechenden Stelle die relative Häufigkeit zu. Diese relativen Häufigkieten addieren sich zu Eins. Umgekehrt lässt sich zu jeder empirischen Verteilung $P_{n}$ die empirische Verteilungsfunktion

F_{n}(x)=P_{n}((\infty ,x])\quad {\text{für }}x\in \mathbb {R}

definieren. Die empirische Verteilung besitzt formal die Eigenschaften einer Wahrscheinlichkeitsverteilung, kann aber in der deskriptiven Statistik als relative Häufigkeitsverteilung aufgefasst werden, ohne dass eine stochastische Interpretation intendiert ist.

Zufällige empirische Verteilung

Eine zufällige empirische Verteilungsfunktion charakterisiert eine zufällige empirische Verteilung ${\tilde {P}}_{n}$ , die durch

{\tilde {P}}_{n}(B)={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{B}(X_{i}),\quad B\subseteq \mathbb {R}

definiert werden kann und von den Zufallsvariablen $X_{1},\ldots ,X_{n}$ abhängt.

Zu einer gegebenen zufälligen empirischen Verteilung ${\tilde {P}}_{n}$ ergibt sich die zufällige empirische Verteilungsfunktion als

{\tilde {F}}_{n}(x)={\tilde {P}}_{n}((\infty ,x])\quad {\text{für }}x\in \mathbb {R} .

Ogive

Ogive bezeichnete ursprünglich das gotische Bau-Stilelement Spitzbogen sowie die verstärkten Rippen in den Gewölben. Der Ausdruck wurde in der Statistik für eine Verteilungsfunktion erstmals 1875 von Francis Galton verwendet:

„When the objects are marshalled in the order of their magnitude along a level base at equal distances apart, a line drawn freely through the tops of the ordinates..will form a curve of double curvature... Such a curve is called, in the phraseology of architects, an ‘ogive’.“

– Francis Galton: Aus Statistics by intercomparison with remarks on the Law of Frequency of Error., Philosophical Magazine 49, S. 35

Auf der horizontalen Achse des Koordinatensystems werden hier die geordneten (oft gruppierten) Merkmalsausprägungen aufgetragen; auf der vertikalen Achse die relativen kumulierten Häufigkeiten in Prozent.

Die Grafik rechts zeigt die kumulierte Verteilungsfunktion einer theoretischen Standardnormalverteilung. Wird der rechte Teil der Kurve an der Stelle $x=0$ gespiegelt (rot gestrichelt), dann sieht die entstehenden Figur wie eine Ogive aus.

Darunter wird eine empirische Verteilungsfunktion gezeigt. Für die Grafik wurden 50 Zufallszahlen aus einer Standardnormalverteilung gezogen. Je mehr Zufallszahlen man zieht, desto stärker nähert man sich der theoretischen Verteilungsfunktion an.

Literatur

Horst Mayer: Beschreibende Statistik. München – Wien 1995.
P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Empirische Verteilungsfunktion (empirical distribution function), S. 84–85.

Einzelnachweise

↑ Galen R. Shorack, Jon A. Wellner: Empirical Processes with Applications in Statistics. Wiley, New York 1986 (Unveränderter Nachdruck: SIAM, Philadelphia 2009, ISBN 978-0-89871-684-9).
↑ Aad W. van der Vaart, Jon A. Wellner: Weak Convergence and Empirical Processes – With Applications to Statistics (= Springer Series in Statistics). 2. Auflage. Springer, Cham 2023, ISBN 978-3-03129038-1, doi:10.1007/978-3-031-29040-4.
↑ P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, S. 85.
↑ P. Massart: The tight constant in the Dvoretzky–Kiefer–Wolfowitz inequality. In: The Annals of Probability. Band 18, Nr. 3, 1990, S. 1269–1283, doi:10.1214/aop/1176990746.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Galen R. Shorack, Jon A. Wellner: Empirical Processes with Applications in Statistics. Wiley, New York 1986 (Unveränderter Nachdruck: SIAM, Philadelphia 2009, ISBN 978-0-89871-684-9).

[2] Aad W. van der Vaart, Jon A. Wellner: Weak Convergence and Empirical Processes – With Applications to Statistics (= Springer Series in Statistics). 2. Auflage. Springer, Cham 2023, ISBN 978-3-03129038-1, doi:10.1007/978-3-031-29040-4.

[3] P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, S. 85.

[4] P. Massart: The tight constant in the Dvoretzky–Kiefer–Wolfowitz inequality. In: The Annals of Probability. Band 18, Nr. 3, 1990, S. 1269–1283, doi:10.1214/aop/1176990746.