Kurs:Statistik für Anwender/Binomialverteilte Zufallsvariable

Binomialverteilte ZV

Wahrscheinlichkeitsrechnung

Zufallsexperiment

Wir betrachten ein (wiederholbares) ZE, das ${\textstyle n}$ -mal durchgeführt wird. Bei jeder Durchführung wird beobachtet, ob ein bestimmtes (vorher festgelegtes) Ereignis eintritt oder nicht. Abkürzend sagt man: ${\textbf {''Treffer''}}\ {\text{Das Ereignis tritt ein.}}\quad \quad$
${\textbf {''KeinTreffer''}}\ {\text{Das Ereignis tritt nicht ein.}}$
Wichtig ist dabei, dass die einzelnen Durchführungen

unabhängig voneinander sind
unter gleichen Bedingungen stattfinden

Zufallsvariable T

Man fasst den gesamten Vorgang nun als ein ZE auf. Die ZV ${\textstyle T}$ , die die Anzahl der Treffer beschreibt, nennt man dann binomialverteilt mit Versuchszahl ${\textstyle n\in \mathbb {N} }$ und Trefferwahrscheinlichkeit ${\textstyle p\in [0,1]}$ und es gilt: $P(T=k)={n \choose k}p^{k}(1-p)^{n-k}\quad {\text{für }}k\in \{0,\ldots ,n\}$

Begründung

Dies lässt sich wie folgt begründen:
Für eine bestimmte Abfolge von ${\textstyle k}$ Treffern und ${\textstyle n-k}$ Nicht-Treffern ist die Wahrscheinlichkeit (entsprechend einem Pfad in einem Baumdiagramm) das Produkt aus ${\textstyle n}$ -Faktoren, von denen ${\textstyle k}$ Faktoren ${\textstyle p}$ sind und ${\textstyle n-k}$ Faktoren ${\textstyle 1-p}$ . Sie hat also den Wert ${\textstyle p^{k}\cdot (1-p)^{n-k}}$ .
Es gibt jedoch mehrere Pfade, in denen genau ${\textstyle k}$ Treffer vorkommen. Da diese Treffer an ${\textstyle k}$ von ${\textstyle n}$ Stellen vorkommen können, sind es insgesamt ${\textstyle {n \choose k}}$ Möglichkeiten.

Beispiel 1

Für ${\textstyle n=5}$ und ${\textstyle p=0.7}$ ist
${\begin{array}{c||c|c|c|c|c|c}k&0&1&2&3&4&5\\\hline P(T=k)&0.002&0.028&0.132&0.309&0.360&0.168\end{array}}$

Beispiel 2.1

Für ${\textstyle n=50}$ und ${\textstyle p=0.3}$ ist beispielsweise:
${\begin{array}{rcccl}P{(T=5)}&=&0.0005509\\P(T=15)&=&0.1223469\\P(T=40)&<&10^{-12}\end{array}}$

Wahrscheinlichkeiten

${\textstyle P(T\leq k)=\sum \limits _{j=0}^{k}{n \choose j}p^{j}(1-p)^{n-j}}$
${\textstyle P(T\geq k)=\sum \limits _{j=k}^{n}{n \choose j}p^{j}(1-p)^{n-j}}$
${\textstyle P(k\leq T\leq \ell )=\sum \limits _{j=k}^{\ell }{n \choose j}p^{j}(1-p)^{n-j}}$

Beispiel 3

Für ${\textstyle n=5}$ und ${\textstyle p=0.7}$ ist beispielsweise:
${\begin{array}{rclcl}P(T\leq 3)&=&0.47148\\P(T\geq 4)&=&0.52852\\P(1\leq T\leq 4)&=&0.8295\end{array}}$

Beispiel 4

Für ${\textstyle n=50}$ und ${\textstyle p=0.3}$ ist beispielsweise: ${\begin{array}{rclcl}P(6\leq T\leq 9)&=&0.039509\\P(T\leq 16)&=&0.683879\\P(T\geq 25)&=&0.002370\end{array}}$

Beispiel 5

Hier einige weitere Beispiele:

Beispiel 6

Interaktive App zur Binomialverteilung:

Link und Download

In R

${\begin{array}{|c|c|c|}\hline \quad \color {blue}{{\text{dbinom(}}k,n,p)}&{\text{ergibt:}}&P(T=k)&=&{n \choose k}p^{k}(1-p)^{n-k}\\\hline \\\quad \color {blue}{{\text{pbinom(}}k,n,p)}&{\text{ergibt:}}&P(T\leq k)&=&\sum \limits _{j=0}^{k}{n \choose j}p^{j}(1-p)^{n-j}\\\hline \\\quad \color {blue}{1-{\text{pbinom(}}k-1,n,p)}&{\text{ergibt:}}&P(T\geq k)&=&\sum \limits _{j=k}^{n}{n \choose j}p^{j}(1-p)^{n-j}\\\hline \\\quad \color {blue}{{\text{pbinom(}}\ell ,n,p)-{\text{pbinom(}}k-1,n,p)}&{\text{ergibt:}}&P(k\leq T\leq \ell )&=&\sum \limits _{j=k}^{\ell }{n \choose j}p^{j}(1-p)^{n-j}\\\hline \end{array}}$

Aufgabe 1

Berechnen Sie für eine binomialverteilte ZV ${\textstyle T}$ mit den jeweils angegebenen Werten für ${\textstyle n}$ und ${\textstyle p}$ die angegebenen Wahrscheinlichkeiten:

Für ${\textstyle n=8}$ und ${\textstyle p=0.46}$ : ${\textstyle \quad P(T=k)}$ für alle ${\textstyle k=0,\ldots ,8}$
Für ${\textstyle n=24}$ und ${\textstyle p=0.12}$ : ${\textstyle \quad P(T\leq 4),\ P(T\geq 6),\ P(2\leq T\leq 5)}$
Für ${\textstyle n=360}$ und ${\textstyle p=0.77}$ : ${\textstyle \quad P(T\leq 275),\ P(T\geq 280),\ P(276\leq T\leq 280)}$

Beispiele für Binomialverteilung 1

(Ziehen mit Zurücklegen) Aus einer Lostrommel, die ${\textstyle N}$ Kugeln enthält, von denen ${\textstyle K}$ rot sind, werden nacheinander mit Zurücklegen ${\textstyle n}$ Kugeln gezogen. Die ZV für die Anzahl roten Kugeln unter den Gezogenen ist binomialverteilt mit Versuchszahl ${\textstyle n}$ und Trefferwahrscheinlichkeit ${\textstyle p={\frac {K}{N}}}$ .
Wenn man ${\textstyle 1000}$ -mal würfelt, ist die ZV für die Zahl der gewürfelten ${\textstyle 6}$ -en binomialverteilt mit Versuchszahl ${\textstyle n=1000}$ und Trefferwahrscheinlichkeit ${\textstyle p={\frac {1}{6}}}$ .

Beispiele für Binomialverteilung 2

Wenn ein Medikament, das mit einer Wahrscheinlichkeit von ${\textstyle 0.2\%}$ eine bestimmte Nebenwirkung verursacht, von ${\textstyle 300}$ Patienten eingenommen wird, ist die ZV für die Zahl der Patienten, bei denen die Nebenwirkung auftritt, binomialverteilt mit Versuchszahl ${\textstyle n=300}$ und Trefferwahrscheinlichkeit ${\textstyle p=0.002}$ .

Beispiele für Binomialverteilung 3

Wenn ein Basketballspieler ${\textstyle n}$ ${\textstyle n}$ Freiwürfe macht, ist die ZV für die Zahl seiner Treffer nur unter folgenden Annahmen binomialverteilt:
- Es gibt eine Trefferwahrscheinlichkeit ${\textstyle p\in [0,1]}$ , die immer gleich groß ist.
- Treffer bzw. Nicht-Treffer bei bestimmten Würfen beeinflussen nicht die Trefferwahrscheinlichkeit für die anderen Würfe.

Beispiele für Binomialverteilung 4

Die Wahrscheinlichkeit für eine Mädchengeburt betrage ${\textstyle 0.487}$ . Unter ${\textstyle 200}$ Neugeborenen ist dann die ZV für die Zahl der Mädchen binomialverteilt mit Versuchszahl ${\textstyle n=200}$ und Trefferwahrscheinlichkeit ${\textstyle p=0.486}$ .

Beispiel Aufgaben 1

Bei einem Multiple-Choice Test gibt es bei jeder der 20 Fragen 4 Antwortmöglichkeiten, von denen genau eine Antwort richtig ist. Ein unvorbereiteter Teilnehmer kreuzt willkürlich jeweils eine Antwort an. Wie groß ist die Wahrscheinlichkeit, dass er ${\text{(i) mindestens 10 Fragen}}\quad \quad {\text{(ii) weniger als 8 Fragen}}\quad \quad$
${\text{(iii) zwischen 2 und 5 Fragen}}$
richtig beantwortet?
Wie groß ist die Wahrscheinlichkeit beim 10-maligen Werfen von 2 Würfeln ${\text{(i) genau 2-mal}}\quad \quad {\text{(ii) mindestens 4-mal}}\quad \quad {\text{(iii) weniger als 7-mal}}$ die Augensumme ${\textstyle 5}$ zu erzielen?

Beispiel Aufgaben 2

Auf dem Weg zur Arbeit ist eine Ampel jeden Tag mit der Wahrscheinlichkeit ${\textstyle p=0.4}$ rot. Berechnen Sie die Wahrscheinlichkeit, dass die Ampel an genau ${\textstyle k}$ von 7 Tagen Rot ist ${\textstyle (k=0,\ldots ,7)}$ .
Ein Bäcker knetet in einen Teig für 100 Rosinenbrötchen 200 Rosinen gut unter. Dann wird der Teig in 100 gleiche Teile geschnitten. Mit welcher Wahrscheinlichkeit enthält ein rein zufällig ausgewähltes Brötchen dieser Charge ${\text{(i)}}\ {\text{genau 2}}\quad \quad {\text{(ii)}}\ {\text{mehr als 3}}\quad \quad {\text{(iii)}}\ {\text{keine}}$
Rosinen?
Zusatzfrage: Wie viele Rosinen muss der Bäcker in den Teig für 100 Rosinenbrötchen kneten, damit ein auf gut Glück ausgewähltes Brötchen mit einer Mindestwahrscheinlichkeit von ${\textstyle 0.95}$ mindestens eine Rosine enthält?

Erwartungswert und Varianz einer binomialverteilten ZV

Für eine binomialverteilte ZV ${\textstyle T}$ mit Versuchszahl ${\textstyle n}$ und Trefferwahrsch. ${\textstyle p}$ gilt: $E(T)=n\cdot p\quad {\text{und}}\quad V(T)=n\cdot p\cdot (1-p)$

EW und Varianz der relativen Häufigkeit

Ist ${\textstyle T}$ eine binomialverteilte ZV mit Versuchszahl ${\textstyle n\in \mathbb {N} }$ und Trefferwahrscheinlichkeit ${\textstyle p\in [0,1]}$ , so beschreibt die ZV ${\textstyle R={\frac {T}{n}}}$ die relative Häufigkeit des Ereignisses "Treffer" in der Versuchsserie.

Es gilt: ${\textstyle \quad E(R)=p\ {\text{und}}\ V(R)={\frac {p\cdot (1-p)}{n}}}$

Beispiel 1

Für ${\textstyle n=5}$ und ${\textstyle p=0.7}$ haben wir oben bereits die Wahrscheinlichkeitsverteilung bestimmt. Daraus ergibt sich:
${\begin{array}{rcccl}E(T)&=&0.002\cdot 0+0.028\cdot 1+0.132\cdot 2+0.309\cdot 3+0.360\cdot 4+0.168\cdot 5\\&=&3.5\\V(T)&=&\left\{{\begin{array}{cc}0.002\cdot (0-3.5)^{2}+0.028\cdot (1-3.5)^{2}\\+0.132\cdot (2-3.5)^{2}+0.309\cdot (3-3.5)^{2}+0.360\cdot (4-3.5)^{2}+0.168\cdot (5-3.5)^{2}\end{array}}\right\}\\&=&1.05\end{array}}$
Tatsächlich ist ${\textstyle E(T)=5\cdot 0.7}$ und ${\textstyle V(T)=5\cdot 0.7\cdot (1-0.7)}$ .

Beispiel 2.1

Für ${\textstyle n=20}$ und ${\textstyle p=0.61}$ berechnen wir zunächst ${\textstyle P(T=k)={20 \choose k}(0.61)^{k}(0.39)^{20-k}}$ für alle möglichen Werte ${\textstyle k=0,\ldots ,20}$ :
${\begin{array}{|c||c|c|c|c|c|c|c|}\hline k&0&1&2&3&4&5&6\\\hline P(T=k)&<0.0001&<0.0001&<0.0001&<0.0001&0.0002&0.0010&0.0038\\\hline \hline k&7&8&9&10&11&12&13\\\hline P(T=k)&0.0118&0.0299&0.0624&0.1073&0.1526&0.1790&0.1722\\\hline k&14&15&16&17&18&19&20\\\hline P(T=k)&0.1347&0.0843&0.0412&0.0152&0.0040&0.0007&0.0001\\\hline \hline \end{array}}$

Beispiel 2.2

Daraus ergibt sich:
${\begin{array}{rclclccclcl}E(T)&=&12.2\\V(T)&=&4.758\end{array}}$
Tatsächlich ist ${\textstyle E(T)=20\cdot 0.61}$ und ${\textstyle V(T)=20\cdot 0.61\cdot (1-0.61)}$ .

Aufgabe 1

Sie werfen eine Münze 20 mal. Bestimmen Sie die folgenden Wahrscheinlichkeiten (Kopf ist "Treffer"):

${\textstyle P(T=7)}$
${\textstyle P(T\leq 8)}$
${\textstyle P(T\geq 9)}$
${\textstyle P(T<10)}$
${\textstyle P(5\leq T\leq 15)}$

Aufgabe 2

Bei dem Spiel Kniffel würfeln Sie mit fünf Würfeln (normalerweise bis zu dreimal, dies soll der Einfachheit wegen vernachlässigt werden). Wie hoch ist die Wahrscheinlichkeit,

ein Kniffel (fünf Gleiche) zu würfeln.
einen Vierer-Pasch (mindestens zwei Vierer) zu werfen.

Bestimmen Sie auch Erwartungswert und Varianz für das Werfen einer bestimmten Zahl.

Schätzungen für p

Problemstellung

Bisher können wir die Wahrscheinlichkeit dafür berechnen, dass die Trefferzahl in einem bestimmten Bereich liegt, wenn wir die Trefferwahrscheinlichkeit ${\textstyle p}$ kennen. In der Praxis ist man häufig aber mit folgender Situation konfrontiert: ${\text{Es sind }}n{\text{ und }}k{\text{ bekannt, aber nicht }}p{\text{.}}$

{\text{Wie kann man }}p{\text{ sinnvoll schätzen?}}

Unterscheidung

Genauer kann man unterscheiden:

Die Versuchszahl ${\textstyle n\in \mathbb {N} }$ steht fest und ist bekannt. (In vielen Fällen kann man ${\textstyle n}$ sogar selbst festlegen.)
Die Trefferwahrscheinlichkeit ${\textstyle p\in [0,1]}$ liegt fest, ist aber nicht bekannt.
Die Trefferzahl ist zufällig.

Situation vor und nach der Datenerhebung

Sie wird vor Erhebung der Daten durch die ZV ${\textstyle T}$ beschrieben. Nach der Datenerhebung liegt dann eine Realisierung ${\textstyle T^{\ast }=k\in \{0,\ldots ,n\}}$ der ZV ${\textstyle T}$ vor.

Schätzungen für ${\textstyle p}$ können nur auf der konkreten Realisierung (Trefferzahl) ${\textstyle T^{\ast }=k}$ basieren. Da der Schätzung also die zufällige Trefferzahl ${\textstyle T}$ zugrunde liegt, ist folglich auch die Schätzung vom Zufall abhängig.
${\text{ZV mit Parameter p}}{\stackrel {\text{zufällig}}{\longrightarrow }}{\text{Daten k }}{\stackrel {\text{methodisch}}{\longrightarrow }}{\text{Schätzung für p}}$

Punktschätzung für p

Sei ${\textstyle T}$ eine binomialverteilte ZV mit (bekannter) Versuchszahl ${\textstyle n\in \mathbb {N} }$ und (unbekannter) Trefferwahrscheinlichkeit ${\textstyle p\in [0,1]}$ .

Eine Punktschätzfunktion für ${\textstyle p}$ ist eine Abbildung:

{\begin{array}{rccc}S:&\underbrace {\{0,\ldots ,n\}} _{\text{Menge der möglichen Werte für die ZV T}}&\to &\underbrace {\mathbb {R} } _{\text{(Ober-)Menge der in Frage kommenden Werte von p}}\\&\underbrace {k} _{\text{konkrete Trefferzahl}}&\mapsto &\underbrace {S(k)} _{\text{konkrete Schätzung für p}}\end{array}}

Punktschätzfunktion vor und nach Datenerhebung

Eine solche Punktschätzfunktion kann aus verschiedenen Blickwinkeln betrachtet werden:

Vor der Durchführung des ZE ist die Trefferzahl ${\textstyle T}$ eine ZV. Da die Trefferzahl in die Schätzfunktion eingesetzt werden soll, kann man so auch die Schätzung selbst als ZV ${\textstyle S\;{\hat {=}}\;S(T)}$ interpretieren.
Nach dem Feststellen einer konkreten Trefferzahl ${\textstyle T^{\ast }\;=\;k}$ kann man diese einfach in die Schätzfunktion einsetzen und erhält so in der Praxis eine konkrete Schätzung ${\textstyle S(k)}$ für ${\textstyle p}$ .

Beispiel 1.1

(Relative Häufigkeit ist Punktschätzfunktion für ${\textstyle p}$ ) Die Abbildung:
$R:\{0,\ldots ,n\}\to \mathbb {R} ,\ R(k)={\frac {k}{n}}$
ist eine Punktschätzfunktion für ${\textstyle p}$ .
Es stellt sich nun die Frage nach einer sinnvollen Punktschätzfunktion für ${\textstyle p}$ (es liegt nahe, die relative Häufigkeit ${\textstyle R}$ aus Beispiel Beispiel 1.1 zu betrachten) bzw. allgemeiner was überhaupt sinnvolle ${\textstyle \;}$ Eigenschaften für eine solche Schätzfunktion sind. Um dies zu beurteilen, sollte man den Standpunkt vor der Datenerhebung einnehmen.

Relative Häufigkeit als Zufallsvariable

Die relative Häufigkeit ist erwartungstreu, effizient und konsistent:
Fasst man die relative Häufigkeit als Zufallsvariable auf, so gilt:

${\textstyle R}$ ist erwartungstreu für ${\textstyle p}$ , das heißt es gilt: ${\textstyle \quad E_{p}(R)=p}$ für alle ${\textstyle p\in [0,1]}$
Dabei ist ${\textstyle E_{p}(R)}$ der (von ${\textstyle p}$ abhängige) EW von ${\textstyle R}$ .
Es gilt: ${\textstyle \quad V_{p}(R){\stackrel {n\to \infty }{\longrightarrow }}0}$ für alle ${\textstyle p\in [0,1]}$
Dabei ist ${\textstyle V_{p}(R)}$ die (von ${\textstyle p}$ abhängige) Varianz von ${\textstyle R}$ .
${\textstyle R}$ ist konsistent, das heißt für alle ${\textstyle p\in [0,1]}$ und alle ${\textstyle c>0}$ gilt: ${\textstyle \quad Pp\left(|R-p|<c\right){\stackrel {n\to \infty }{\longrightarrow }}1}$

Dabei bedeutet ${\textstyle P_{p}(\ldots )}$ das die Wahrscheinlichkeit in Abhängigkeit von ${\textstyle p}$ berechnet wurde.

Das Maximum-Likelihood-Prinzip

Neben den schon genannten Qualitätskriterien für Punktschätzfunktionen (Erwartungstreue, Effizienz und Konsistenz) gibt es noch einen anderen Zugang, die sogenannte Maximum-Likelihood-Methode. Dabei wird für den unbekannten Parameter (hier die Trefferwahrscheinlichkeit ${\textstyle p}$ ) der Wert geschätzt, für den die beobachteten Daten (hier die Trefferzahl ${\textstyle T^{\ast }=k}$ ) möglichst wahrscheinlich waren.

Maximum-Likelihood-Schätzung 1

Die Maximum-Likelihood-Schätzung ${\textstyle S_{ML}:\{0,\ldots ,n\}\to [0,1]}$ ist also wie folgt definiert:

Für ${\textstyle k\in \{0,\ldots ,n\}}$ ist ${\textstyle S_{ML}(k)\in [0,1]}$ die (globale) Maximumstelle der Funktion $L:[0,1]\to [0,1],\ L(p)=\underbrace {{n \choose k}p^{k}(1-p)^{n-k}} _{=P(T=k)\ {\text{(abhängig von p)}}}$
( ${\textstyle L}$ steht für Likelihood-Funktion)

Maximum-Likelihood-Schätzung 2

Die Wahrscheinlichkeit ${\textstyle p}$ wird bei ${\textstyle k}$ Treffern in ${\textstyle n}$ Versuchen also als der Wert geschätzt, für den die Wahrscheinlichkeit ${\textstyle P(T=k)}$ für genau ${\textstyle k}$ Treffer maximal ist.

Man kann zeigen, (vergleiche die folgenden Beispiele) dass stets ${\textstyle S_{ML}(k)={\frac {k}{n}}=R(k)}$ gilt. Auch mit dieser Methode erhält man also die relative Häufigkeit als sinnvolle Schätzung für ${\textstyle p}$ .

Beispiel 2

n = 50, k =10 bzw. n=400, k = 250

Intervallschätzungen für p

Ein (für die Praxis relevantes) Problem bei den bisher behandelten Punktschätzungen für ${\textstyle p}$ ist, dass es sich bei den Gütekriterien (Erwartungstreue, Effizienz und Konsistenz) für die Schätzfunktionen lediglich um qualitative Aussagen handelt.

Ziel ist es nun, Schätzungen für ${\textstyle p}$ zu formulieren, die man auch quantitativ beurteilen kann. Eine solche hat die Form: ${\text{Der unbekannte Wert}}\ p\ {\text{liegt in einem Intervall der Form}}\ [p_{U},p_{O}].$

Situation

Wir betrachten die folgende Situation:
Zu einer binomialverteilten ZV ${\textstyle T}$ ist die Versuchszahl ${\textstyle n\in \mathbb {N} }$ fest und bekannt und die Trefferwahrscheinlichkeit ${\textstyle p\in [0,1]}$ fest, aber unbekannt. Basierend auf der vom Zufall abhängigen Trefferzahl ${\textstyle T^{\ast }=k\in \{0,\ldots ,n\}}$ soll nun eine Intervallschätzung
$p\in [p_{U},p_{O}]=[p_{U}(k),p_{O}(k)]$
für ${\textstyle p}$ vorgenommen werden.

Betrachtung vor der Datenerhebung

Erneut nehmen wir die folgenden beiden Standpunkte ein:

Vor der Durchführung des ZE ist die Trefferzahl ${\textstyle T}$ eine ZV. Da die Trefferzahl in die Intervallschätzfunktion eingesetzt werden soll, hängt somit auch das berechnete Intervall
${\textstyle B(T)=[p_{U}(T),p_{O}(T)]}$
vom Zufall ab. Damit ist es auch vom Zufall abhängig, ob die resultierende Aussage
${\textstyle p\in [p_{U}(T),p_{O}(T)]}$
wahr oder falsch sein wird.

Betrachtung nach der Datenerhebung

Nach dem Feststellen einer konkreten Trefferzahl ${\textstyle T^{\ast }=k}$ kann man diese einfach in die Schätzfunktion einsetzen und erhält so in der Praxis eine konkrete Intervallschätzung
${\textstyle B(k)=[p_{U}(k),p_{O}(k)]}$
für ${\textstyle p}$ . Die Aussage
${\textstyle p\in [p_{U}(k),p_{O}(k)]}$
ist dann nicht mehr vom Zufall abhängig, sondern entweder wahr oder falsch. (Leider weiß man nicht, welcher der beiden Fälle eingetreten ist, da man ${\textstyle p}$ nicht kennt.)

Intervallschätzung als Abbildung

Sei ${\textstyle {\mathcal {I}}_{[0,1]}=\left\{[a,b];\ 0\leq a\leq b\leq 1\right\}}$ die Menge der abgeschlossenen Teilintervalle von ${\textstyle [0,1]}$ .

Eine Intervallschätzung (bzw. Bereichsschätzung) für ${\textstyle p}$ ist eine Abbildung: ${\begin{array}{rccc}B:&\underbrace {\{0,\ldots ,n\}} _{\text{Menge der möglichen Werte für die ZV T}}&\to &\underbrace {{\mathcal {I}}_{[0,1]}} _{\begin{array}{c}{\text{Menge von Teilmengen der Menge}}\\{\text{aller in Frage kommenden Werte von p}}\end{array}}\\&\underbrace {k} _{\text{konkrete Trefferzahl}}&\mapsto &\underbrace {B(k)=[p_{U}(k),p_{O}(k)]} _{{\text{konkrete Intervallschätzung für }}p}\end{array}}$

Beurteilung einer Intervallschätzung

Um Intervallschätzungen sinnvoll beurteilen zu können, untersuchen wir die (vom unbekannten Parameter ${\textstyle p}$ abhängige) Wahrscheinlichkeit dafür, dass man ein "korrektes Intervall" (also eines, dass ${\textstyle p}$ tatsächlich enthält) berechnet, wenn man die (vom Zufall abhängige) Trefferzahl einsetzt.

Überdeckungswahrscheinlichkeit und Konfidenzniveau

Gegeben sei eine Intervallschätzfunktion: $B:\{0,\ldots ,n\}\to {\mathcal {I}}_{[0,1]},\ B(k)=[p_{U}(k),p_{O}(k)]$

Überdeckungswahrscheinlichkeit

Für einen denkbaren Parameterwert ${\textstyle p\in [0,1]}$ definiert man die Überdeckungswahr-scheinlichkeit von ${\textstyle B}$ an der Stelle ${\textstyle p}$ durch:
$P_{B}(p)=P(B(T)\ni p)=P\left([p_{U}(T),p_{O}(T)]\ni p\right)=\sum \limits _{k\in \{0,\ldots ,n\},B(k)\ni p}{n \choose k}\cdot p^{k}\cdot (1-p)^{n-k}$

Anmerkung

Die Schreibweise ${\textstyle B(T)\ni p}$ ist mathematisch gleichbedeutend zu ${\textstyle p\in B(T)}$ , hat aber den Vorteil, dass dabei deutlich wird, dass ${\textstyle B(T)}$ (und nicht ${\textstyle p}$ ) vom Zufall abhängt. Anstatt zu sagen: ${\textstyle p}$ ist in ${\textstyle B(T)}$ enthalten." formuliert man daher auch ${\textstyle B(T)}$ fängt ${\textstyle p}$ ein."

Konfidenzniveau

Gilt ${\textstyle P_{B}(p)\geq \delta }$ für eine feste Zahl ${\textstyle \delta \in [0,1]}$ , so sagt man auch:
"Die Intervallschätzung ${\textstyle B}$ hält das Konfidenzniveau ${\textstyle \delta }$ ein."

Bedeutung 1

Die Überdeckungswahrscheinlichkeit entspricht der Wahrscheinlichkeit dafür, dass man ein korrektes Intervall erhalten wird, wenn man die zufällige Trefferzahl ${\textstyle T}$ in die Intervallschätzung ${\textstyle B}$ einsetzt. Da die Überdeckungswahrscheinlichkeit vom unbekannten Parameter ${\textstyle p}$ abhängt, kann man sie in der Praxis nicht berechnen.

Bedeutung 2

Weiß man aber (aufgrund theoretischer Überlegungen), dass eine Intervallschätzung ein bestimmtes Konfidenzniveau ${\textstyle \delta }$ einhält, so ist (unabhängig vom wahren Wert von ${\textstyle p}$ ) garantiert, dass man MINDESTENS mit der Wahrscheinlichkeit ${\textstyle \delta }$ ein korrektes Intervall erhalten wird, wenn man die zufällige Trefferzahl ${\textstyle T}$ in die Intervallschätzung ${\textstyle B}$ einsetzt.

In der Praxis sollte man nur Intervallschätzungen verwenden, von denen man weiß, dass sie ein hohes Konfidenzniveau (üblich sind ${\textstyle \delta =0.9}$ oder ${\textstyle \delta =0.95}$ oder ${\textstyle \delta =0.99}$ ) einhalten.

Ziel

Wie findet man zu einem vorgegebenen Konfidenzniveau ${\textstyle \delta {\stackrel {\text{z.B.}}{=}}0.95}$ eine Intervallschätzung, die dieses Konfidenzniveau garantiert einhält.

Intervallschätzung nach Clopper-Pearson

Vorgegeben sei ${\textstyle \delta \in ]0,1[}$ .

Für ${\textstyle k\in \{0,\ldots ,n\}}$ bestimmt man ${\textstyle p_{U}=p_{U}(k)}$ und ${\textstyle p_{O}=p_{O}(k)}$ aus den Gleichungen:
$\sum _{j=k}^{n}{n \choose j}{p_{U}}^{j}(1-p_{U})^{n-j}={\frac {1-\delta }{2}}$
$\sum _{j=0}^{k}{n \choose j}{p_{O}}^{j}(1-p_{O})^{n-j}={\frac {1-\delta }{2}}$
Dann hält die Intervallschätzung ${\textstyle B:\{0,\ldots ,n\}\to {\mathcal {I}}_{[0,1]},\ B(k)=[p_{U}(k),p_{O}(k)]}$ garantiert das Konfidenzniveau ${\textstyle \delta }$ ein.

Ausnahmen

Ausnahme sind folgende Sonderfälle:
Für ${\textstyle k=0}$ setze ${\textstyle p_{U}=p_{U}(0)=0}$ , für ${\textstyle k=n}$ setze ${\textstyle p_{O}=p_{O}(n)=1}$ .

Anmerkung

Obige Bestimmungsgleichungen für ${\textstyle p_{U}}$ und ${\textstyle p_{O}}$ sind ohne Computereinsatz kaum zu lösen. Konfidenzintervalle nach Clopper-Pearson können aber in R direkt berechnet werden. Der Befehl
$\quad \color {blue}{{\text{binom.test(}}k,n,{\text{conf.level}}=\delta )\${\text{conf.int}}[1:2]}$
ergibt das Konfidenzintervall zum Vertrauensniveau ${\textstyle \delta }$ bei ${\textstyle k}$ Treffern in ${\textstyle n}$ Versuchen.

Bemerkung 1

Obergrenzen für die Wahrsch. für Über- bzw. Unterschätzung von ${\textstyle p}$ :
Die Grenzen ${\textstyle p_{U}}$ und ${\textstyle p_{O}}$ der Intervallschätzung nach Clopper-Pearson aus Satz Intervallschätzung nach Clopper-Pearson sind so gewählt, dass die Wahrscheinlichkeiten für "Unterschätzung" und "Überschätzung" von ${\textstyle p}$ durch dieselbe Grenze beschränkt sind. Genauer: $P{\big (}\underbrace {p>p_{O}(T)} _{\text{Unterschätzung}}{\big )}\leq {\frac {1-\delta }{2}}\quad {\text{und}}\quad P{\big (}\underbrace {p<p_{U}(T)} _{\text{Unterschätzung}}{\big )}\leq {\frac {1-\delta }{2}}$

Bemerkung 2

Zusammen ergibt sich damit

P{\big (}\underbrace {p\notin [p_{U}(T),p_{O}(T)]} _{\text{falsche Schätzung}}{\big )}\leq 1-\delta

und folglich

\quad P{\big (}\underbrace {p\in [p_{U}(T),p_{O}(T)]} _{\text{korrekte Schätzung}}{\big )}\geq \delta

Dass man diesen Aussagen überhaupt eine Wahrscheinlichkeit zuschreiben kann, liegt daran dass die Intervallgrenzen ${\textstyle p_{U}(T)}$ und ${\textstyle p_{O}(T)}$ zufällig sind (und nicht etwa der unbekannte, aber feste Wert ${\textstyle p}$ ).

Beispiel 1.1

Für ${\textstyle n=100}$ und ${\textstyle k=71}$ ergeben sich die Intervallgrenzen als Lösungen der Gleichung

{\frac {1-\delta }{2}}=\sum _{j=71}^{100}{100 \choose j}{p_{U}}^{j}(1-p_{U})^{100-j}

und

{\frac {1-\delta }{2}}=\sum _{j=0}^{71}{100 \choose j}{p_{O}}^{j}(1-p_{O})^{100-j}

Beispiel 1.2

Hierbei wären also Polynome vom Grad ${\textstyle n=100}$ aufzulösen. Mit R berechnen wir:
${\begin{array}{l}{\text{Für }}\delta =0.6{\text{ ist }}[p_{U},p_{O}]=[0.665,0.751].\\{\text{Für }}\delta =0.8{\text{ ist }}[p_{U},p_{O}]=[0.644,0.769].\\{\text{Für }}\delta =0.9{\text{ ist }}[p_{U},p_{O}]=[0.626,0.784].\\{\text{Für }}\delta =0.99{\text{ ist }}[p_{U},p_{O}]=[0.580,0.819].\end{array}}$

Beispiel 2.1

Für ${\textstyle n=20}$ erhält man zum Konfidenzniveau ${\textstyle \delta =0.8}$ mit der Clopper-Pearson-Methode abhängig von ${\textstyle k}$ die folgenden (mit R berechneten) Konfidenzintervalle ${\textstyle B(k)=[p_{U}(k),p_{O}(k)]}$ :
${\begin{array}{|c||c|c|c|c|c|c|c|}\hline k&0&1&2&3&4&5&6\\\hline B(k)&[0,0.109]&[0.005,0.181]&[0.027,0.245]&[0.056,0.304]&[0.090,0.361]&[0.127,0.415]&[0.166,0.467]\\\hline \hline k&7&8&9&10&11&12&13\\\hline B(k)&[0.207,0.518]&[0.249,0.567]&[0.292,0.615]&[0.338,0.662]&[0.385,0.707]&[0.433,0.751]&[0.482,0.793]\\\hline \hline k&14&15&16&17&18&19&20\\\hline B(k)&[0.533,0.834]&[0.585,0.873]&[0.639,0.910]&[0.696,0.944]&[0.755,0.973]&[0.819,0.995]&[0.891,1]\\\hline \end{array}}$

Beispiel 2.2

Wir berechnen für verschiedene denkbare Werte von ${\textstyle p}$ , die Überdeckungswahrscheinlichkeit (also die Wahrscheinlichkeit dafür, dass die Intervallschätzung korrekt ist):

Beispiel 2.3

Angenommen, es ist ${\textstyle p=0.3}$ . Dann ist die Intervallschätzung für ${\textstyle T\in \{3,4,5,6,7,8,9\}}$ korrekt. Die Wahrscheinlichkeit dafür ist:
$P_{B}(0.3)=P(B(T)\ni 0.3)=P(3\leq T\leq 9)=0.917$

Beispiel 2.4

Angenommen, es ist ${\textstyle p=0.52}$ . Dann ist die Intervallschätzung für ${\textstyle T\in \{8,9,10,11,12,13\}}$ korrekt. Die Wahrscheinlichkeit dafür ist:
$P_{B}(0.52)=P(B(T)\ni 0.52)=P(8\leq T\leq 13)=0.822$

Beispiel 2.5

Angenommen, es ist ${\textstyle p=0.88}$ . Dann ist die Intervallschätzung für ${\textstyle T\in \{16,17,18,19\}}$ korrekt. Die Wahrscheinlichkeit dafür ist: $P_{B}(0.88)=P(B(T)\ni 0.88)=P(16\leq T\leq 19)=0.840$

Beispiel 2.6

Angenommen, es ist ${\textstyle p=1}$ . Dann ist die Intervallschätzung für ${\textstyle k=20}$ korrekt. Die Wahrscheinlichkeit dafür ist:
$P_{B}(1)=P(B(T)\ni 1)=P(T=20)=1$

Korrektheit der Schätzung

Es ist bewiesen, dass die Schätzung bei beliebigem ${\textstyle p}$ immer mindestens mit der Wahrscheinlichkeit ${\textstyle \delta }$ korrekt ist.

Größe der Konfidenzintervalle 1

Bei fester relativer Häufigkeit werden die Konfidenzintervalle mit wachsender Versuchszahl kleiner (mit mehr Versuchen erreicht man eine höhere Genauigkeit) und mit wachsendem Konfidenzniveau größer (ein höheres Konfidenzniveau "bezahlt"man mit einer ungenaueren Aussage). Man beachte die Größenordnungen dieser Veränderungen anhand der folgenden (mit R berechneten) Konfidenzintervalle:

Größe der Konfidenzintervalle 2

${\begin{array}{|cc|c|c|c|c|c|}\hline &k/n&3/10&30/100&300/1000&3000/10000&30000/100000\\\delta &&&&&&\\\hline &&&&&&\\0.6&&\quad [0.157,0.484]\quad &\quad [0.258,0.346]\quad &\quad [0.287,0.313]\quad &\quad [0.296,0.304]\quad &\quad [0.298,0.302]\quad \\&&&&&&\\\hline &&&&&&\\0.8&&[0.115,0.552]&[0.239,0.367]&[0.281,0.320]&[0.294,0.306]&[0.298,0.302]\\&&&&&&\\\hline &&&&&&\\0.9&&[0.087,0.607]&[0.224,0.385]&[0.276,0.325]&[0.292,0.308]&[0.297,0.303]\\&&&&&&\\\hline &&&&&&\\0.95&&[0.066,0.653]&[0.212,0.400]&[0.271,0.330]&[0.291,0.310]&[0.297,0.303]\\&&&&&&\\\hline &&&&&&\\0.99&&[0.037,0.735]&[0.189,0.431]&[0.263,0.339]&[0.288,0.312]&[0.296,0.304]\\&&&&&&\\\hline \end{array}}$

Bemerkung Verwendung von Intervallschätzungen in der Praxis 1

In der Praxis ist bei der Verwendung von Intervallschätzungen wie folgt vorzugehen:

1. Zunächst macht man sich die Situation klar: Die Trefferwahrscheinlichkeit ${\textstyle p}$ einer Binomialverteilung ist unbekannt (aber fest, d.h. nicht vom Zufall abhängig).
2. Man legt fest:

das Verfahren, mit dem man die Intervallschätzung berechnen wird. (z.B. zweiseitiger Test nach Clopper-Pearson).

Bemerkung Verwendung von Intervallschätzungen in der Praxis 2

eine Versuchszahl ${\textstyle n\in \mathbb {N} }$
zu beachten:
Hohe Werte von ${\textstyle n}$ führen zu einem engeren Konfidenzintervall.
ein Konfidenzniveau ${\textstyle \delta \in ]0,1[}$
zu beachten:
Hohe Werte von ${\textstyle \delta }$ entsprechen einer höheren Untergrenze für die Wahrscheinlichkeit einer korrekten Schätzung, führen aber zu einem breiteren Konfidenzintervall. Sinnvoll ist z.B. ${\textstyle \delta =0.95}$ .

Bemerkung Verwendung von Intervallschätzungen in der Praxis 3

3. Man führt die Versuchsreihe durch und stellt die Trefferzahl ${\textstyle T^{\ast }=k}$ fest.
Zu beachten:
Wichtig bei einer Binomialverteilung ist, dass die einzelnen Versuche unabhängig voneinander und immer unter den gleichen Bedingungen durchgeführt werden.

Bemerkung Verwendung von Intervallschätzungen in der Praxis 4

4. Man berechnet das Konfidenzintervall ${\textstyle [p_{U}(k),p_{O}(k)]}$ mit der zuvor festgelegten Methode. (Dies kann der Computer erledigen.)

5. Man verkündet das Ergebnis:
${\textstyle p\in [p_{U}(k),p_{O}(k)]\quad {\text{mit dem Zusatz: }}}$ " Das Konfidenzniveau ${\textstyle \delta }$ wurde eingehalten." Damit ist klar: Vor Erhebung der Daten war die Wahrscheinlichkeit ein korrektes Intervall zu erhalten, mindestens ${\textstyle \delta }$ . Nach Berechnung des Intervalls kann man damit der Aussage ${\textstyle p\in [p_{U}(k),p_{O}(k)]}$ ein gewisses Vertrauen entgegenbringen (aber keine Wahrscheinlichkeit zuweisen, sie ist entweder wahr oder falsch).

Bemerkung Einseitig begrenzte Konfidenzintervalle

In gewissen Situationen kann es Sinn machen, die Clopper-Pearson-Methode so zu modifizieren, dass man einseitig (statt wie bisher zweiseitig) begrenzte Konfidenzintervalle berechnet.

Beispiel 3

Ist ${\textstyle p}$ beispielsweise die Wahrscheinlichkeit dafür, dass eine bestimmte Maßnahme einen gewünschten Erfolg erzielt, so könnte es wichtig sein, ${\textstyle p}$ (möglichst strikt) nach unten abzuschätzen, aber eine Abschätzung von ${\textstyle p}$ nach oben ist nicht notwendig.
Dazu kann man linkssseitig begrenzte Konfidenzintervalle verwenden.

Beispiel 4

Ist ${\textstyle p}$ beispielsweise die Wahrscheinlichkeit dafür, dass bei der Einnahme eines Medikaments eine (unerwünschte) Nebenwirkung auftritt, so könnte es wichtig sein, ${\textstyle p}$ (möglichst strikt) nach oben abzuschätzen, aber eine Abschätzung von ${\textstyle p}$ nach unten ist nicht notwendig.
Dazu kann man rechtsseitig begrenzte Konfidenzintervalle verwenden.

Einseitig begrenze Konfidenzintervalle

Einseitig begrenze Konfidenzintervalle zu einem vorgegebenen Konfidenzniveau ${\textstyle \delta \in (0,1)}$ werden wie folgt berechnet:

Linksseitig begrenzte Konfidenzintervalle

Bei ${\textstyle k}$ Treffern aus ${\textstyle n}$ Versuchen bestimmt man das linksseitig begrenzte Konfidenzintervall ${\textstyle [p_{U},1]}$ zum Vertrauensniveau ${\textstyle \delta }$ durch
$\sum _{j=k}^{n}{n \choose j}{p_{U}}^{j}(1-p_{U})^{n-j}=1-\delta$
(Sonderfall: Für ${\textstyle k=0}$ setze ${\textstyle p_{U}=0}$ .)

Rechtsseitig begrenzte Konfidenzintervalle

Bei ${\textstyle k}$ Treffern aus ${\textstyle n}$ Versuchen bestimmt man das rechtsseitig begrenzte Konfidenzintervall ${\textstyle [0,p_{O}]}$ zum Vertrauensniveau ${\textstyle \delta }$ durch
$\sum _{j=0}^{k}{n \choose j}{p_{O}}^{j}(1-p_{O})^{n-j}=1-\delta$
(Sonderfall: Für ${\textstyle k=n}$ setze ${\textstyle p_{O}=1}$ .)

Überschätzung bei linksseitig begrenzten Konfidenzintervallen

Linksseitig begrenzte Konfidenzintervalle dürfen den Wert von ${\textstyle p}$ mit einer Wahrscheinlichkeit von bis zu ${\textstyle 1-\delta }$ überschätzen (statt ${\textstyle {\frac {1-\delta }{2}}}$ wie bei den zweiseitigen Intervallschätzungen). Um dies auszugleichen, unterschätzen sie den Wert von ${\textstyle p}$ nie (die obere Grenze ist ${\textstyle 1}$ ). Die untere Grenze kann daher im Vergleich zum zweiseitigen Test etwas besser (größer) gewählt werden.

Unterschätzung bei rechtsseitig begrenzten Konfidenzintervallen

Rechtsseitig begrenzte Konfidenzintervalle dürfen den Wert von ${\textstyle p}$ mit einer Wahrscheinlichkeit von bis zu ${\textstyle 1-\delta }$ unterschätzen (statt ${\textstyle {\frac {1-\delta }{2}}}$ wie bei den zweiseitigen Intervallschätzungen). Um dies auszugleichen, überschätzen sie den Wert von ${\textstyle p}$ nie (die untere Grenze ist ${\textstyle 0}$ ). Die obere Grenze kann daher im Vergleich zum zweiseitigen Test etwas besser (kleiner) gewählt werden.

Berechnung in R

In R berechnet man einseitige Konfidenzintervalle nach Clopper-Pearson mit

${\textstyle {\text{binom.test}}}$ ${\textstyle \color {grey}{(}}$ ${\textstyle {\text{k,n,}}\;{\text{conf.level=delta, alternativ=}}\quad }$ " ${\textstyle \color {green}{\text{greater}}}$ " ${\textstyle \color {grey}{)\$}}$ ${\textstyle {\text{conf.int}}}$ ${\textstyle \color {grey}{[}}$ ${\textstyle \color {blue}{1:2}}$ ${\textstyle \color {grey}{]}}$ ${\textstyle \quad \quad \color {green}{\#{\text{linksseitig begrenzt}}}}$
${\textstyle {\text{binom.test}}}$ ${\textstyle \color {grey}{(}}$ ${\textstyle {\text{k,n,}}\;{\text{conf.level=delta, alternativ=}}\quad }$ " ${\textstyle \color {green}{\text{less}}}$ " ${\textstyle \color {grey}{)\$}}$ ${\textstyle {\text{conf.int}}}$ ${\textstyle \color {grey}{[}}$ ${\textstyle \color {blue}{1:2}}$ ${\textstyle \color {grey}{]}}$ ${\textstyle \quad \quad \quad \color {green}{\#{\text{rechtsseitig begrenzt}}}}$

Beispiel 5

Konfidenzintervalle im Vergleich für $k=112,\quad n=200\quad \Rightarrow \quad {\frac {k}{n}}=0.56$ :
${\begin{array}{|r||c|c|c|}\hline \delta &0.8&0.9&0.95\\\hline {\text{beidseitig begrenzt}}&[0.512,0.607]&[0.499,0.620]&[0.488,0.630]\\\hline {\text{linksseitig begrenzt}}&[0.527,1]&[0.512,1]&[0.499,1]\\\hline {\text{rechtsseitig begrenzt}}&[0,0.591]&[0,0.607]&[0,0.620]\\\hline \end{array}}$

Bestimmung der Intervallgrenzen

Allgemein bestimmt man aus den Gleichungen $\sum _{j=k}^{n}{n \choose j}{p_{U}}^{j}(1-p_{U})^{n-j}=\alpha _{U}\quad \left({\text{und}}\ p_{U}=0,\ {\text{falls}}\ k=0\right)$ $\sum _{j=0}^{k}{n \choose j}{p_{O}}^{j}(1-p_{O})^{n-j}=\alpha _{O}\quad \left({\text{und}}\ p_{O}=1,\ {\text{falls}}\ k=n\right)$ die Grenzen einer Intervallschätzung ${\textstyle [p_{U},p_{O}]}$ , die den Wert von ${\textstyle p}$ mit einer Wahrscheinlichkeit von höchstens ${\textstyle \alpha _{U}}$ überschätzt und mit einer Wahrscheinlichkeit von höchstens ${\textstyle \alpha _{O}}$ unterschätzt.

Konfidenzniveau der Schätzung

Das heißt, es gilt
$P(p<p_{U})\leq \alpha _{U}\quad {\text{und}}\quad P(p>p_{O})\leq \alpha _{O}$
und damit
$P(p\in [p_{U},p_{O}])\geq 1-\alpha _{U}-\alpha _{O}$
Damit ist ${\textstyle \delta =1-\alpha _{U}-\alpha _{O}}$ das Konfidenzniveau der Schätzung.

Beispiel 6

Für ${\textstyle \delta =0.95}$ hat man zum Beispiel folgende Möglichkeiten:
${\begin{array}{|c|c|c|c|c|c|}\hline &&P(p<p_{U})&P(p>p_{O})&P(p\notin [p_{U},p_{O}])&P(p\in [p_{U},p_{O}])\\\hline \alpha _{U}=0.025\;,\;\alpha _{O}=0.025&zweiseitig,\ \alpha _{U}=\alpha _{O}&\leq 0.025&\leq 0.025&\leq 0.05&\geq 0.95\\\hline \alpha _{U}=0.05\;,\;\alpha _{O}=0&linksseitig\ begrenzt&\leq 0.05&0&\leq 0.05&\geq 0.95\\\hline \alpha _{U}=0\;,\;\alpha _{O}=0.05&rechtsseitig\ begrenzt&0&\leq 0.05&\leq 0.05&\geq 0.95\\\hline \alpha _{U}=0.04\;,\;\alpha _{O}=0.01&zweiseitig,\alpha _{U}\not =\alpha _{O}&\leq 0.04&\leq 0.01&\leq 0.05&\geq 0.95\\\hline \alpha _{U}=0.02\;,\;\alpha _{O}=0.03&zweiseitig,\alpha _{U}\not =\alpha _{O}&\leq 0.02&\leq 0.03&\leq 0.05&\geq 0.95\\\hline \end{array}}$

Aufgabe 3.1

Bei einer bestimmten Tierart kann bei bestimmten Nachkommen eine morphologische Veränderung beobachtet werden. Die genaue Wahrscheinlichkeit ${\textstyle p}$ dafür, dass ein neugeborenes Tier die morphologische Veränderung aufweisst, ist aber unbekannt und soll geschätzt werden.
In einer Studie werden dazu ${\textstyle 250}$ neugeborene Tiere untersucht. Von diesen Tieren weissen ${\textstyle 180}$ die morphologische Veränderung auf.

Aufgabe 3.2

1. Geben Sie anhand der Daten eine Punktschätzung für ${\textstyle p}$ ab.
2. Stellen Sie die Maximum-Likelihood-Funktion auf
3. Es soll eine Intervallschätzung ${\textstyle \left[p_{U},p_{O}\right]}$ für ${\textstyle p}$ zum Konfidenzniveau ${\textstyle \delta =0.9}$ abgegeben werden.

Geben Sie die Gleichungen an, anhand derer sich ${\textstyle p_{U}}$ und ${\textstyle p_{O}}$ bestimmen lassen (zweiseitige Intervallschätzung nach Clopper-Pearson). Verwenden Sie dazu wieder die erhobenen Daten ( ${\textstyle 180}$ Nachkommen mit morphologischer Veränderung bei ${\textstyle 250}$ untersuchten). Setzen Sie alle bekannten Zahlenwerte in die Gleichungen ein.

Aufgabe 3.3

Berechnen Sie mit R die Grenzen ${\textstyle p_{U}}$ und ${\textstyle p_{O}}$ .
Erklären Sie, inwiefern die Korrektheit der Intervallschätzung ${\textstyle p\in \left[p_{U},p_{O}\right]}$ vom Zufall abhängt. Was weiß man über die Wahrscheinlichkeit, dass die Intervallschätzung korrekt ist? Unterscheiden Sie bei Ihren Erläuterungen die Situation vor und nach der Datenerhebung (bzw. der Berechnung der Intervallgrenzen).

Aufgabe 3.4

Wie ändert sich die Breite des Konfidenzintervalls, wenn man das Konfidenzniveau von ${\textstyle 0.9}$ auf ${\textstyle 0.95}$ erhöht?
Wie verändert sich die Breite des Konfidenzintervalls, wenn man statt ${\textstyle 180}$ morphologisch auffälligen von ${\textstyle 250}$ untersuchten neugeborenen Tieren eine Untersuchung mit ${\textstyle 1800}$ von ${\textstyle 2500}$ untersuchten neugeborenen Tieren zugrunde legt?

Seiteninformation

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.

Die Seite wurde als Dokumententyp PanDocElectron-SLIDE erstellt.
Link zur Quelle in Wikiversity: https://de.wikiversity.org/wiki/Kurs:Statistik%20f%C3%BCr%20Anwender/Binomialverteilte%20Zufallsvariable
siehe auch weitere Informationen zu Wiki2Reveal und unter Wiki2Reveal-Linkgenerator.