Die Testtheorie ist neben der Schätztheorie ein zentrales Teilgebiet der mathematischen Statistik und beschäftigt sich mit der Konstruktion und Untersuchung von statistischen Tests. Solche Tests versuchen, aufgrund vorliegender Daten Fragen wie
- Wirkt ein neues Medikament wirklich besser als das ältere, gut untersuchte Präparat?
- Ist der Klimawandel anthropogen verursacht oder nicht?
- Wird sich der Bau einer Fabrik an einem neuen Standort innerhalb von zehn Jahren rechnen oder nicht?
zu beantworten. Dabei spielt einerseits die Modellierung und Konstruktion eines Tests eine Rolle, andererseits auch die Frage, welchen Qualitätsansprüchen ein Test genügen sollte und ob ein solcher Test überhaupt existiert.
Für die folgenden Ausführungen beachte man, dass in den Testsituationen eine Asymmetrie zwischen den zu treffenden Entscheidungen für oder gegen eine Hypothese vorliegt. Im Falle des genannten Medikamententests hätte eine Entscheidung für das neue Medikament, obwohl dieses schlechter als ein bereits vorhandenes ist, wesentlich dramatischere Folgen (schwere Schädigungen von Patienten, hohe Kosten für mögliche Entschädigungsansprüche, vergeblicher Kostenaufwand für die Neueinführung, Imageverlust, …) als eine umgekehrte Fehlentscheidung (verpasste Marktchance). Diese Asymmetrie spiegelt sich in der Modellierung wider, ein Fehler der ersten Art sollte möglichst vermieden werden, das heißt dessen Wahrscheinlichkeit sollte beschränkt sein. Das motiviert die folgenden Begriffsbildungen.
Grundbegriffe
Nullhypothese und Alternative
Gegeben ist ein (nicht notwendigerweise parametrisches) statistisches Modell . Dabei formalisiert die Werte, welche die Daten annehmen können, ist eine σ-Algebra, die beschreibt, welchen Teilmengen von eine Wahrscheinlichkeit zugeordnet wird. ist eine Familie von Wahrscheinlichkeitsmaßen. Die Indexmenge wird dann disjunkt in zwei Mengen und zerlegt. Dabei bedeutet
- die Nullhypothese und steht für die Menge aller günstigen Testfälle
- die Alternativhypothese oder kurz Alternative und vereint alle ungünstigen Testfälle.
Die zentrale Frage der Testtheorie lautet nun: Angenommen, es liegt irgendeine unbekannte Wahrscheinlichkeitsverteilung mit vor und Daten sind gegeben. Wie kann man eine möglichst gute Aussage darüber treffen, ob ist oder ist?
Zu beachten ist, dass sich die Rolle der Nullhypothese und die der Alternative auch umkehren kann, wenn sich die Fragestellung ändert.
Statistischer Test
Der statistische Test formalisiert die zu treffende Entscheidung. Dabei wird 0="Annahme der Nullhypothese" und 1="Annahme der Alternative" gesetzt. Werte zwischen 0 und 1 entsprechen dann der Wahrscheinlichkeit, sich für die Alternative zu entscheiden. Mathematisch ist ein Test eine messbare Funktion
die bei Vorliegen der Daten eine Entscheidung liefert. Man spricht dann auch von einem Test von gegen . Die Menge
heißt der Ablehnungsbereich des Tests und enthält alle Daten, bei deren Vorliegen man sich für die Alternative entscheidet.
Ein Test heißt ein nichtrandomisierter Test, wenn . Ansonsten heißt der Test ein randomisierter Test. Nichtrandomisierte Tests liefern also immer eine eindeutige Entscheidung.
Fehler 1. und 2. Art
Ist ein gegeben, so kann man auf zwei verschiedene Arten einen Fehler begehen. Als Fehler 1. Art bezeichnet man die Entscheidung für , obwohl ist. Mit Rückgriff auf die Notation der bedingten Wahrscheinlichkeit ist dann
die Wahrscheinlichkeit für einen Fehler 1. Art. Analog spricht man von einem Fehler 2. Art, wenn man sich für entscheidet, aber ist. Die Wahrscheinlichkeit für einen Fehler 2. Art ist somit
Gütefunktion, Niveau und Trennschärfe
Für einen vorliegenden Test heißt die Funktion
die Gütefunktion des Tests. Dabei bezeichnet den Erwartungswert bezüglich des Wahrscheinlichkeitsmaßes .
Ist ein gegeben, so dass
- ,
so nennt man das Niveau des Tests. Gilt sogar
- ,
so heißt das effektive Niveau des Tests. Das effektive Niveau des Tests ist somit eine obere Schranke für einen Fehler 1. Art.
Für ein heißt die Trennschärfe des Tests an der Stelle . Sie entspricht der Wahrscheinlichkeit, einen Fehler 2. Art nicht zu machen, wenn der Parameter vorliegt.
Optimalitätsbegriffe für Tests
Für Tests lassen sich verschiedene Optimalitätsbegriffe formulieren, die sich in ihrer Stärke unterscheiden. Je stärker der Optimalitätsbegriff, umso stärker die Voraussetzungen, unter denen ein optimaler Test existiert. Neben Optimalitätsbegriffen formuliert man oft auch Reduktionsprinzipien (siehe unten), um optimale Tests nur innerhalb kleinerer Mengen von Tests suchen zu müssen.
Gleichmäßig beste Tests
Ein gleichmäßig bester Test ist ein Test, dessen Trennschärfe immer größer als die aller anderen Tests zu einem vorgegebenen Niveau. Somit ist die Wahrscheinlichkeit für einen Fehler 2. Art bei gleichmäßig besten Tests immer kleiner als für einen beliebigen weiteren Test.
Zentrale Existenzaussage für gleichmäßig beste Tests ist das Neyman-Pearson-Lemma. Es besagt, dass der Neyman-Pearson-Test ein gleichmäßig bester Test ist. Dieses Resultat kann unter geeigneten Voraussetzungen (z. B. bei monotonen Dichtequotienten) auf allgemeinere Testprobleme ausgeweitet werden.
Maximin-Tests
Maximin-Tests sind Tests, bei denen die Worst-Case-Wahrscheinlichkeit für einen Fehler 2. Art kleiner ist als bei allen anderen Tests zu einem vorgegebenen Niveau. Großer Vorteil von Maximin-Tests ist, dass sie unter weitaus allgemeineren Voraussetzungen existieren als gleichmäßig beste Tests.
Strenge Tests
Strenge Tests sind Tests, bei denen die maximale Abweichung der Trennschärfe von der Trennschärfe des lokal besten Tests (bzw. der envelope power function) kleiner ist als bei allen anderen Tests zum vorgegebenen Niveau. Wie auch Maximin-Tests existieren strenge Tests bereits unter schwachen Voraussetzungen.
Reduktionsprinzipien
Als Reduktionsprinzipien bezeichnet man Vorgehensweisen, die es erlauben, in kleinere Klassen von Tests nach optimalen Elementen zu suchen. Ein wichtiges Reduktionsprinzip ist die Einschränkung auf unverfälschte Tests. Dies sind diejenigen Tests zu einem vorgegebenen Niveau, bei denen die Trennschärfe des Tests immer über dem Niveau liegt. Somit sind unverfälschte Tests immer besser als der „naive“ Test, der eine rein zufällige Entscheidung auslost. Ein wichtiges Hilfsmittel zum Auffinden von gleichmäßig besten unverfälschten Tests sind die ähnlichen Tests. Bei diesen nimmt die Gütefunktion auf dem Übergang von Nullhypothese zu Alternative genau den Wert des Niveaus an.
Testtheorie als Entscheidungsproblem
Viele Optimalitäts- und Reduktionsprinzipien der Testtheorie lassen sich im Rahmen der Entscheidungstheorie in ein statistisches Entscheidungsproblem einordnen und miteinander vergleichen.
Grundlage des statistischen Entscheidungsproblems ist wie in der Testtheorie ein statistisches Modell sowie ein Entscheidungsraum, der in der Testtheorie stets ist. Entscheidungsfunktionen sind dann genau die statistischen Tests, wobei die randomisierten Tests den randomisierten Entscheidungsfunktionen entsprechen, die nichtrandomisierten Tests entsprechend den nichtrandomisierten Entscheidungsfunktionen.
Typische Wahl für die Verlustfunktion ist die Neyman-Pearson-Verlustfunktion, die bei gleicher Gewichtung für den Fehler 1. und 2. Wahl die Risikofunktion
für einen statistischen Test liefert. Hierbei bezeichnen bzw. die Wahrscheinlichkeit für einen Fehler 1. bzw. 2. Art, wenn vorliegt.
Schränkt man die Menge der Tests nun auf die Menge der Tests zum Niveau ein und verwendet obige Risikofunktion, so sind
- die gleichmäßig besten Tests genau die zulässigen Entscheidungsfunktionen
- die Maximin-Tests genau die Minimax-Entscheidungsfunktionen.
Literatur
- Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, doi:10.1515/9783110215274.
- Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, doi:10.1007/978-3-642-41997-3.
- Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, doi:10.1007/978-3-642-17261-8.