Die Chi-Quadrat-Verteilung bzw.
-Verteilung (ältere Bezeichnung: Helmert-Pearson-Verteilung, nach Friedrich Robert Helmert und Karl Pearson) ist eine stetige Wahrscheinlichkeitsverteilung über der Menge der nichtnegativen reellen Zahlen. Üblicherweise ist mit „Chi-Quadrat-Verteilung“ die zentrale Chi-Quadrat-Verteilung gemeint. Die Chi-Quadrat-Verteilung hat einen einzigen Parameter, nämlich die Anzahl der Freiheitsgrade
.
Sie ist eine der Verteilungen, die aus der Normalverteilung
abgeleitet werden kann: Sind
unabhängige und standardnormalverteilte Zufallsvariablen, so ist die Chi-Quadrat-Verteilung mit
Freiheitsgraden definiert als die Verteilung der Summe
der quadrierten Zufallsvariablen. Solche Summen quadrierter Zufallsvariablen treten bei Schätzfunktionen wie der Stichprobenvarianz zur Schätzung der empirischen Varianz auf. Die Chi-Quadrat-Verteilung ermöglicht damit unter anderem ein Urteil über die Kompatibilität eines vermuteten funktionalen Zusammenhangs (Abhängigkeit von der Zeit, Temperatur, Druck etc.) mit empirisch ermittelten Messpunkten. Kann z. B. eine Gerade die Daten erklären, oder braucht man doch eine Parabel oder vielleicht einen Logarithmus? Man wählt verschiedene Modelle aus, und dasjenige mit der besten Anpassungsgüte, dem kleinsten Chi-Quadrat-Wert, bietet die beste Erklärung der Daten.[1][2] So stellt die Chi-Quadrat-Verteilung durch die Quantifizierung der zufälligen Schwankungen die Auswahl verschiedener Erklärungsmodelle auf eine numerische Basis. Außerdem erlaubt sie, wenn man die empirische Varianz bestimmt hat, die Schätzung des Vertrauensintervalls, das den (unbekannten) Wert der Varianz der Grundgesamtheit mit einer gewissen Wahrscheinlichkeit einschließt. Diese und weitere Anwendungen sind weiter unten und im Artikel Chi-Quadrat-Test beschrieben.
Die Chi-Quadrat-Verteilung wurde 1876 eingeführt von Friedrich Robert Helmert, die Bezeichnung stammt von Karl Pearson (1900).[3]
Definition
Sind
stochastisch unabhängige und standardnormalverteilte Zufallsvariablen, so heißt die Verteilung der Zufallsvariablen
mit

Chi-Quadrat-Verteilung mit
Freiheitsgraden.[4] Hierfür schreibt man symbolisch

und sagt, dass sie
-verteilt ist.
Hinweis: In der Statistik werden oftmals Stichprobenfunktionen, die unter gewissen Bedingungen chi-Quadrat-verteilt sind, mit
bezeichnet.
Eigenschaften
Dichtefunktion
Die Summe quadrierter Größen kann keine negativen Werte annehmen. Deshalb hat die Dichte
der
-Verteilung für
den Wert null. Für
lässt sie sich darstellen als
[4]
Dabei steht
für die Gammafunktion. Die Werte von
kann man rekursiv aus


berechnen.
Spezialfall: Für die Dichte
der
-Verteilung mit
Freiheitsgraden gilt für

Verteilungsfunktion
Die Verteilungsfunktion kann man mit Hilfe der
regularisierten unvollständigen Gammafunktion
ausdrücken:

Wenn
eine natürliche Zahl ist, dann kann die Verteilungsfunktion wie folgt dargestellt werden:

wobei
die Fehlerfunktion bezeichnet.
Spezialfall: Für die Verteilungsfunktion
der
-Verteilung mit
Freiheitsgraden gilt für

Reproduktivität
Ist
die Summe der Quadrate von
unabhängigen standardnormalverteilten Zufallsvariablen und
die Summe der Quadrate von
unabhängigen standardnormalverteilten Zufallsvariablen, so gilt
und
.
Die Summe
ist dann aber die Summe der Quadrate von
unabhängigen standardnormalverteilten Zufallsvariablen, also gilt
.
Die Chi-Quadrat-Verteilung ist also reproduktiv.
Erwartungswert
Der Erwartungswert einer chi-quadrat-verteilten Zufallsvariable mit
Freiheitsgraden ist
.
Varianz
Die Varianz einer chi-quadrat-verteilten Zufallsvariable mit
Freiheitsgraden beträgt
.
Modus
Eine Chi-Quadrat-Verteilung mit
Freiheitsgraden hat den Modus
.
Die Dichte der Chi-Quadrat-Verteilungen mit einem und zwei Freiheitsgraden nimmt das Supremum auf dem offenen Intervall
nicht an, die Dichten sind in diesen beiden Fällen aber monoton fallend. Man findet daher auch teils die Bezeichnung Modus 0 für die Chi-Quadrat-Verteilungen mit einem und zwei Freiheitsgraden.
Schiefe
Die Schiefe
der Chi-Quadrat-Verteilung mit
Freiheitsgraden ist
.
Die Chi-Quadrat-Verteilung besitzt eine positive Schiefe, d. h., sie ist linkssteil- bzw. rechtsschief. Je höher die Anzahl der Freiheitsgrade
, desto weniger schief ist die Verteilung.
Kurtosis
Die Kurtosis (Wölbung)
der Chi-Quadrat-Verteilung mit
Freiheitsgraden ist gegeben durch
.
Der Exzess
gegenüber der Normalverteilung ergibt sich damit zu
.[5] Daher gilt: Je höher die Anzahl der Freiheitsgrade
, desto geringer der Exzess.
Momenterzeugende Funktion
Die momenterzeugende Funktion für
hat die Form[6]
.
Charakteristische Funktion
Die charakteristische Funktion für
ergibt sich aus der momenterzeugenden Funktion als:
.
Entropie
Die Entropie der Chi-Quadrat-Verteilung (ausgedrückt in nats) beträgt

wobei
die Digamma-Funktion bezeichnet.
Nichtzentrale Chi-Quadrat-Verteilung
Wenn die normalverteilten Zufallsvariablen nicht bezüglich ihres Erwartungswertes
zentriert sind (d. h., wenn nicht alle
sind), erhält man die nichtzentrale Chi-Quadrat-Verteilung. Sie hat als zweiten Parameter neben
den Nichtzentralitätsparameter
.
Seien
, so ist
mit
.
Insbesondere folgt aus
und
, dass
ist.
Eine zweite Möglichkeit, eine nichtzentrale Chi-Quadrat-Verteilung zu erzeugen, ist als Mischverteilung der zentralen Chi-Quadrat-Verteilung. Dabei ist
,
wenn
aus einer Poisson-Verteilung gezogen wird.
Dichtefunktion
Die Dichtefunktion
der nichtzentralen Chi-Quadrat-Verteilung hat für
den Wert null und für
ist
.
Die Summe über j führt auf eine modifizierte Bessel-Funktion erster Gattung
. Damit erhält die Dichtefunktion folgende Form:
für
.
Der Erwartungswert
und die Varianz
der nichtzentralen Chi-Quadrat-Verteilung gehen ebenso wie die Dichte für
in die entsprechenden Ausdrücke der zentralen Chi-Quadrat-Verteilung über.
Verteilungsfunktion
Die Verteilungsfunktion der nichtzentralen Chi-Quadrat-Verteilung kann mit Hilfe der Marcum-Q-Funktion
ausgedrückt werden:[7]

Beispiel
Gegeben sind
Messungen einer Größe
, die aus einer normalverteilten Grundgesamtheit stammen. Sei
der empirische Mittelwert der
gemessenen Werte und

die korrigierte Stichprobenvarianz.
Dann lässt sich z. B. das Konfidenzintervall für die Varianz der Grundgesamtheit
angeben:

Die Grenzen ergeben sich daraus, dass
wie
verteilt ist.
Konkretes Beispiel: Stichprobe mit
Werten, Varianz
, 95%-Konfidenzintervall:
95 % der Werte sollen sich innerhalb des Intervalls befinden. Es wird also davon ausgegangen, dass je 2,5 % der Werte die obere bzw. untere Intervallgrenze überschreiten dürfen. In diesem Fall wird daher
durch
und
durch
bestimmt.
Bei der Berechnung der Grenzen des Konfidenzintervalls in Programmen wird üblicherweise die Inverse Funktion verwendet (Kehrwert der kumulierten Chi-Quadrat-Verteilung): z. B. in Excel oder Numbers die Funktion CHIINV(p,n-1) :
Die obere Intervallgrenze ergibt sich mit
aus:
=CHIINV(0,025; 99) / 99 * s^2 = 1,2971
Die untere Intervallgrenze ergibt sich aus:
=CHIINV(0,975; 99) / 99 * s^2 = 0,7410
Herleitung der Verteilung der Stichprobenvarianz
Sei
eine Stichprobe von
Messwerten, gezogen aus einer normalverteilten Zufallsvariablen
mit empirischen Mittelwert
und Stichprobenvarianz
als Schätzfunktionen für Erwartungswert
und Varianz
der Grundgesamtheit.
Dann lässt sich zeigen, dass
verteilt ist wie
.
Dazu werden nach Helmert[8] die
mittels einer orthonormalen Linearkombination in neue Variablen
transformiert. Die Transformation lautet:


-



Die neuen unabhängigen Variablen
sind wie
normalverteilt mit gleicher Varianz
, aber mit Erwartungswert
beides aufgrund der Faltungsinvarianz der Normalverteilung.
Außerdem gilt für die Koeffizienten
in
(falls
, ist
) wegen der Orthonormalität
(Kronecker-Delta) und damit

Deshalb ergibt sich nun für die Summe der Abweichungsquadrate

und schlussendlich nach Division durch

Der Ausdruck auf der linken Seite ist offenbar verteilt wie eine Summe von quadrierten standardnormalverteilten unabhängigen Variablen mit
Summanden, wie für
gefordert.
Demnach ist also die Summe Chi-Quadrat-verteilt mit
Freiheitsgraden
, während laut Definition der Chi-Quadrat-Summe
. Ein Freiheitsgrad wird hier „verbraucht“, denn aufgrund der Schwerpunkteigenschaft des empirischen Mittels
ist die letzte Abweichung
bereits durch die ersten
bestimmt. Folglich variieren nur
Abweichungen frei und man mittelt die empirische Varianz deshalb, indem man durch die Anzahl der Freiheitsgrade
dividiert.
Beziehung zu anderen Verteilungen
Beziehung zur Gammaverteilung
Die Chi-Quadrat-Verteilung ist ein Spezialfall der Gammaverteilung. Ist
, so gilt

Beziehung zur Normalverteilung
.
- Für
ist
näherungsweise standardnormalverteilt.
- Für
ist die Zufallsvariable
näherungsweise normalverteilt, mit Erwartungswert
und Standardabweichung
bzw. bei einer nichtzentralen Chi-Quadrat-Verteilung mit Erwartungswert
und Standardabweichung
.
Beziehung zur Exponentialverteilung
Eine Chi-Quadrat-Verteilung mit 2 Freiheitsgraden ist eine Exponentialverteilung
mit dem Parameter
.
Beziehung zur Erlang-Verteilung
Eine Chi-Quadrat-Verteilung mit
Freiheitsgraden ist identisch mit einer Erlang-Verteilung
mit
Freiheitsgraden und
.
Beziehung zur F-Verteilung
Seien
und
unabhängige Chi-Quadrat-verteilte Zufallsvariablen mit
bzw.
Freiheitsgraden, dann ist der Quotient

F-verteilt mit
Zählerfreiheitsgraden und
Nennerfreiheitsgraden.[9]
Beziehung zur Poisson-Verteilung
Die Verteilungsfunktionen der Poisson-Verteilung und der Chi-Quadrat-Verteilung hängen auf folgende Weise zusammen:
Die Wahrscheinlichkeit,
oder mehr Ereignisse in einem Intervall zu finden, innerhalb dessen man im Mittel
Ereignisse erwartet, gleicht der Wahrscheinlichkeit, dass der Wert von
ist. Es gilt nämlich
,
mit
und
als regularisierte Gammafunktionen.
Beziehung zur stetigen Gleichverteilung
Ist
gleichverteilt auf dem Intervall
, dann gilt
, denn

Sind
unabhängig und identisch verteilte Zufallsvariablen mit
, dann gilt somit

Herleitung der Dichtefunktion
Die Dichte der Zufallsvariable
, mit
unabhängig und standardnormalverteilt, ergibt sich aus der gemeinsamen Dichte der Zufallsvariablen
. Diese gemeinsame Dichte ist das
-fache Produkt der Standardnormalverteilungsdichte:

Für die gesuchte Dichte gilt:

mit
Im Grenzwert ist die Summe im Argument der Exponentialfunktion gleich
. Man kann zeigen, dass man den Integranden als
vor das Integral und den Limes ziehen kann.
Das verbleibende Integral

entspricht dem Volumen der Schale zwischen der Kugel mit Radius
und der Kugel mit Radius
,
wobei
das Volumen der n-dimensionalen Kugel mit Radius R angibt.
Es folgt:
und nach Einsetzen in den Ausdruck für die gesuchte Dichte:
.
Quantilfunktion
Die Quantilfunktion
der Chi-Quadrat-Verteilung ist die Lösung der Gleichung
und damit prinzipiell über die Umkehrfunktion zu berechnen. Konkret gilt hier

mit
als Inverse der regularisierten unvollständigen Gammafunktion. Dieser Wert
ist in der Quantiltabelle unter den Koordinaten
und
eingetragen.
Quantilfunktion für kleinen Stichprobenumfang
Für wenige Werte
(1, 2, 4) kann man die Quantilfunktion auch alternativ angeben:



wobei
die Fehlerfunktion,
den unteren Zweig der Lambertschen W-Funktion bezeichnet und
die Eulersche Zahl.
Näherung der Quantilfunktion für feste Wahrscheinlichkeiten
Für bestimmte feste Wahrscheinlichkeiten
lassen sich die zugehörigen Quantile
durch die einfache Funktion des Stichprobenumfangs

mit den Parametern
aus der Tabelle annähern, wobei
die Signum-Funktion bezeichnet, die einfach das Vorzeichen ihres Arguments darstellt:
|
0,005 |
0,01 |
0,025 |
0,05 |
0,1 |
0,5 |
0,9 |
0,95 |
0,975 |
0,99 |
0,995
|
|
−3,643 |
−3,298 |
−2,787 |
−2,34 |
−1,83 |
0 |
1,82 |
2,34 |
2,78 |
3,29 |
3,63
|
|
1,8947 |
1,327 |
0,6 |
0,082 |
−0,348 |
−0,67 |
−0,58 |
−0,15 |
0,43 |
1,3 |
2
|
|
−2,14 |
−1,46 |
−0,69 |
−0,24 |
0 |
0,104 |
−0,34 |
−0,4 |
−0,4 |
−0,3 |
0
|
Der Vergleich mit einer
-Tabelle zeigt ab
einen relativen Fehler unter 0,4 %, ab
unter 0,1 %. Da die
-Verteilung für große
in eine Normalverteilung mit Standardabweichung
übergeht, besitzt der Parameter
aus der Tabelle, der hier frei angepasst wurde, bei der entsprechenden Wahrscheinlichkeit
etwa die Größe des
-fachen des Quantils der Normalverteilung (
), wobei
die Umkehrfunktion der Fehlerfunktion bedeutet.
Das 95 %-Konfidenzintervall für die Varianz der Grundgesamtheit aus dem Abschnitt Beispiel kann z. B. mit den beiden Funktionen
aus den Zeilen mit
und
auf einfache Weise als Funktion von
grafisch dargestellt werden.
Der Median befindet sich in der Spalte der Tabelle mit
.
Literatur
- Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. 12. Auflage. Oldenbourg, 1999, ISBN 3-486-24984-3, S. 152 ff.
Weblinks
Einzelnachweise
- ↑ R. Barlow: Statistics Wiley, 1989, S. 152 (Goodness of Fit).
- ↑ Kendall, Stuart: The Advanced Theory Of Statistics Vol. 2 Third Edition, London, 1973, S. 436 (Goodness of Fit).
- ↑ F. R. Helmert. In: Zeitschrift fuer Math. und Physik 21, 1876, S. 192–219.
Karl Pearson: On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably Be Supposed to have Arisen from Random Sampling. In: Philosophical Magazine 5, Band 50, 1900, S. 157–175.
Zitiert nach L. Schmetterer: Mathematische Statistik. Springer, Wien 1966, S. 93
- ↑ a b Ilja Nikolajewitsch Bronstein, Konstantin Adolfowitsch Semendjajew: Taschenbuch der Mathematik. 5. Auflage. Verlag Harri Deutsch, 2000, ISBN 3-8171-2005-2, S. 782.
- ↑ Wolfram Mathworld
- ↑ A. C. Davison: Statistical Models, Cambridge University Press 2008, ISBN 1-4672-0331-9, Kapitel 3.2
- ↑ Albert H. Nuttall: Some Integrals Involving the QM Function. In: IEEE Transactions on Information Theory. Nr. 21, 1975, S. 95–96, doi:10.1109/TIT.1975.1055327.
- ↑ Helmert. In: Astronomische Nachrichten, 88, 1876, S. 113–132
- ↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York / Chichester / Brisbane / Toronto / Singapore 1988, ISBN 0-471-62414-4, S. 51.