Störgröße und Residuum
In der Statistik sind Störgröße und Residuum zwei eng verwandte Konzepte. Die Störgrößen (nicht zu verwechseln mit Störparametern oder Störfaktoren), auch Störvariablen, Störterme, Fehlerterme oder kurz Fehler genannt, sind in einer einfachen oder multiplen Regressionsgleichung unbeobachtbare Zufallsvariablen, die den vertikalen Abstand zwischen Beobachtungspunkt und wahrer Gerade (Regressionsfunktion der Grundgesamtheit) messen. Für sie nimmt man für gewöhnlich an, dass sie unkorreliert sind, einen Erwartungswert von Null und eine homogene Varianz aufweisen (Gauß-Markow-Annahmen). Sie beinhalten unbeobachtete Faktoren, die sich auf die abhängige Variable auswirken. Die Störgröße kann auch Messfehler in den beobachteten abhängigen oder unabhängigen Variablen enthalten.
Im Gegensatz zu den Störgrößen sind Residuen (lateinisch residuum = „das Zurückgebliebene“) berechnete Größen und messen den vertikalen Abstand zwischen Beobachtungspunkt und der geschätzten Regressionsgerade. Mitunter wird das Residuum auch als „geschätztes Residuum“ bezeichnet. Diese Benennung ist problematisch, da die Störgröße eine Zufallsvariable und kein Parameter ist. Von einer Schätzung der Störgröße kann daher nicht die Rede sein.
Die Problematik bei der sogenannten Regressionsdiagnostik ist, dass sich die Gauß-Markow-Annahmen nur auf die Störgrößen, nicht aber auf die Residuen beziehen. Die Residuen haben zwar ebenfalls einen Erwartungswert von Null, sind aber nicht unkorreliert und weisen auch keine homogene Varianz auf. Um diesem Missstand Rechnung zu tragen, werden die Residuen meist modifiziert, um die geforderten Annahmen zu erfüllen, z. B. studentisierte Residuen. Die Quadratsumme der Residuen spielt in der Statistik in vielen Anwendungen eine große Rolle, z. B. bei der Methode der kleinsten Quadrate. Die Notation der Störgrößen als bzw. ist an das lateinische Wort erratum (Irrtum) angelehnt. Die Residuen können mit Hilfe der Residualmatrix generiert werden.