Die parametrische Statistik ist ein Zweig der induktiven Statistik. Um mit Hilfe von Daten aus einer Stichprobe Aussagen über eine unbekannte Grundgesamtheit herzuleiten, wird in der induktiven Statistik davon ausgegangen, dass die Beobachtungsdaten Realisierungen von Zufallsvariablen sind. In der parametrischen Statistik wird zusätzlich angenommen, dass die Zufallsvariablen aus einer Familie vorgegebener Wahrscheinlichkeitsverteilungen (oft: der Normalverteilung) stammen, deren Elemente bis auf einen (endlichdimensionalen) Parameter eindeutig bestimmt sind. Die meisten bekannten statistischen Analyseverfahren sind parametrische Verfahren.
Im Gegensatz dazu steht die nichtparametrische Statistik. Da deren Verfahren keine Verteilungsannahme bzgl. der Zufallsvariablen erfordern, heißen sie auch verteilungsfrei.
Beispiel
Um eine neue Therapie zur Senkung des Cholesterinspiegels zu testen, werden bei zehn Probanden vor und nach der Behandlung die Cholesterinwerte bestimmt. Es ergeben sich die folgenden Messergebnisse:
Vor der Behandlung: | 223 | 259 | 248 | 220 | 287 | 191 | 229 | 270 | 245 | 201 |
Nach der Behandlung: | 218 | 242 | 241 | 208 | 297 | 168 | 208 | 273 | 250 | 186 |
Differenz: | 5 | 17 | 7 | 12 | −10 | 23 | 21 | −3 | −5 | 15 |
Wenn die neue Therapie einen Effekt hat, dann sollte der Mittelwert der Differenzen signifikant von Null abweichen. Der parametrische Test lehnt die Nullhypothese ab, während der nichtparametrische Test diese nicht verwerfen kann. In der Praxis würde man hier natürlich einseitige Tests durchführen.
Parametrisches Verfahren
Üblicherweise würde man hier den Zweistichproben-t-Test für abhängige Stichproben einsetzen (Nullhypothese: der Mittelwert der Differenz ist Null). Eine Voraussetzung für diesen Test ist jedoch, dass entweder der Stichprobenumfang größer als 30 ist (Faustregel) oder die Differenzen normalverteilt sind. Sind die Differenzen normalverteilt, kann man zeigen, dass die Teststatistik einer t-Verteilung folgt.
Die Differenzen der Messwerte haben das arithmetische Mittel und die Stichprobenstandardabweichung (gerundet). Das ergibt als Prüfwert
- (gerundet).
Der Nichtablehnungsbereich der Nullhypothese bei einem Signifikanzniveau von ergibt sich zu . Da der Prüfwert außerhalb des Nichtablehnungsbereich der Nullhypothese liegt, muss sie verworfen werden.
Nichtparametrisches Verfahren
Die nichtparametrische Alternative hierzu ist der Vorzeichentest. Hier ist die Nullhypothese, dass der Median Null ist. Bei der Normalverteilung stimmen Median und Mittelwert immer überein, dies ist jedoch bei anderen Wahrscheinlichkeitsverteilungen nicht unbedingt der Fall. Hier sind genau drei Differenzen kleiner Null und sieben größer als Null. Die Teststatistik folgt einer Binomialverteilung mit und . Der Nichtablehnungsbereich der Nullhypothese bei einem Signifikanzniveau von ergibt sich zu . Da drei und sieben innerhalb des Nichtablehnungsbereich der Nullhypothese liegen, kann sie nicht verworfen werden.
Vorteile und Nachteile
Die Verfahren der parametrischen Statistik beruhen im Gegensatz zu Methoden der nichtparametrischen Statistik auf zusätzlichen Verteilungsannahmen. Sind diese Annahmen richtig, ergeben sich in aller Regel genauere und präzisere Schätzungen. Sind sie nicht korrekt, so liefern parametrische Verfahren in vielen Fällen schlechte Schätzungen; das parametrische Konzept ist dann nicht robust gegen die Verletzung der Verteilungsannahmen. Andererseits sind parametrische Verfahren oft einfacher und schneller zu berechnen. Manchmal ist eine schnelle Berechnung wichtiger als die Nicht-Robustheit, insbesondere wenn diese bei der Interpretation von Statistiken berücksichtigt wird.
Begriffsgeschichte
Der Statistiker Jacob Wolfowitz prägte den statistischen Begriff der parametrischen Statistik, um deren Gegenteil zu definieren:
“Most of these developments have this feature in common, that the distribution functions of the various stochastic variables which enter into their problems are assumed to be of known functional form, and the theories of estimation and of testing hypotheses are theories of estimation of and of testing hypotheses about, one or more parameters. …, the knowledge of which would completely determine the various distribution functions involved. We shall refer to this situation. … as the parametric case, and denote the opposite case, where the functional forms of the distributions are unknown, as the non-parametric case.”
Einzelnachweise
- ↑ Seymour Geisser, Wesley O. Johnson: Modes of Parametric Statistical Inference. Wiley, 2006, ISBN 978-0-471-74313-2.
- ↑ D. R. Cox: Principles of Statistical Inference. Cambridge University Press, 2006, ISBN 978-0-521-68567-2.
- ↑ David C. Hoaglin, John Tukey, Frederick Mosteller: Understanding Robust and Exploratory Data Analysis. John Wiley & Sons, 2000, ISBN 978-0-471-38491-5.
- ↑ Gregory W. Corder und Dale I. Foreman: Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach. John Wiley & Sons, 2009, ISBN 978-0-470-45461-9.
- ↑ David A. Freedman: Statistical Models: Theory and Practice. 2. Auflage. Cambridge University Press, 2009, ISBN 978-0-521-74385-3.
- ↑ Jacob Wolfowitz: Additive Partition Functions and a Class of Statistical Hypotheses. In: Annals of Mathematical Statistics. Band 13, 1942, S. 264.