Allgemeine Wahrscheinlichkeitstheorie

Wahrscheinlichkeitsräume (1)

Bisher beschränkten wir uns auf ein abzählbares $\Omega$ (Vermeidung technischer Schwierigkeiten). Es gibt jedoch Zufallsexperimente, für welche ein überabzählbares $\Omega$ angemessen ist.

1. Messung einer physikalischen Größe mit einer großen Genauigkeit. ( $\Omega =\mathbb {R}$ )

2. Exakter Zeitpunkt des Eintretens eines Erdbebenstoßes oder eines Telefonanrufs. ( $\Omega =\mathbb {R} _{+}$ )

3. Idealisiertes "stetiges" Roulette. ( $\Omega =[0,2\pi [$ ) - Winkel statt diskrete Anzahl an Kreissektoren

4. Pseudo-Zufallszahlen. ( $\Omega =[0,1]$ )

Wahrscheinlichkeitsräume (2)

In Beispiel 4. verlangen wir intuitiv von einer Wahrscheinlichkeitsverteilung $P$ auf $[0,1]$ : $P([a,b])=b-a,\quad 0\leq a\leq b\leq 1$ , insbesondere

(*)

P(\lbrace w\rbrace )=0

.

Das mathematische Problem besteht nun darin, dass es keine Abbildung $P:{\mathcal {S}}([0,1])\to [0,1]$ gibt, die normiert und $\sigma$ -additiv ist und (*) erfüllt (Maßproblem).

Ausweg aus diesem Dilemma - Maßproblem

Statt auf ganz ${\mathcal {S}}(\Omega )$ das Maß zu definieren, schränkt man $P$ auf einem Teilsystem der Potenzmenge von $[0,1]$ , die dann nur bestimmte Teilmengen $A\subset \Omega$ enthält. Das Teilsystem ${\mathcal {S}}\subset {\mathcal {S}}(\Omega )$ . ${\mathcal {S}}$ soll dann aber so beschaffen sein, dass die üblichen Mengenoperationen $\cap ,\cup ,...$ nicht aus ${\mathcal {S}}$ herausführen.

Begründung für die Eigenschaften

Wenn man das Maß von Teilmengen $A_{1},A_{2},\ldots$ aus der Potenzmenge von $\Omega$ kennt, möchte man auch von Vereinigungen, Schnitten und Komplemente der Mengen die Maß angeben können. Damit dies überhaupt machtbar ist, müssen diese Mengenoperationen wieder Elemente aus dem Definitionsbereich des Maßes liefern. Aus diesen Anforderungen ergibt sich die Definition der $\sigma$ -Algebra.

σ-Algebra (Definition)

Ist $\Omega$ eine beliebige, nichtleere Menge, so heißt ein Mengensystem ${\mathcal {S}}\subset {\mathcal {S}}(\Omega )$ eine $\sigma$ -Algebra über $\Omega$ , wenn gilt

a) $\Omega \in {\mathcal {S}}$

b) $A\in {\mathcal {S}}\Rightarrow {\bar {A}}\in {\mathcal {S}}$

c) $A_{1},A_{2},...\in {\mathcal {S}}\Rightarrow \cup _{i=1}^{\infty }A_{i}\in {\mathcal {U}}$

Bemerkung

1. Es ist $\varnothing ={\bar {\Omega }}\in {\mathcal {S}}$

2. $A_{1},A_{2},...\in {\mathcal {S}}\Rightarrow \cap _{i=1}^{\infty }A_{i}=\cup _{i=1}^{\infty }{\bar {A}}_{i}\in {\mathcal {S}}$

3. In c) bzw 2. können wir auch $\cup _{i=1}^{\infty }$ bzw. $\cap _{i=1}^{\infty }$ einsetzen. Setze $A_{n+1}=A_{n+2}=...=\varnothing$ bzw. $A_{n+1}=A_{n+2}=...=\Omega$ .

4. ${\mathcal {B}}(\Omega )$ ist eine $\sigma$ -Algebra ('größte'), $\lbrace \varnothing ,\Omega \rbrace$ ist eine $\sigma$ -Algebra ('kleinste').

5. Ist ${\mathcal {I}}\subset {\mathcal {S}}(\Omega )$ ein vorgegebenes Mengensystem, so existiert unter den $\sigma$ -Algebraen, die ${\mathcal {I}}$ umfassen, eine kleinste $\sigma$ -Algebra (!). Wir nennen sie die von ${\mathcal {I}}$ erzeugte $\sigma$ -Algebra $\sigma ({\mathcal {I}})$ . ${\mathcal {I}}$ heißt dann Erzeugendensystem von $\sigma ({\mathcal {I}})$ .

6. Ein Paar $(\Omega ,{\mathcal {S}})$ , ${\mathcal {S}}$ $\sigma$ -Algebra über $\Omega$ , heißt messbarer Raum.

Definition - Wahrscheinlichkeitsraum

Ein Triplet $(\Omega ,{\mathcal {S}},P)$ heißt (allgemeiner) Wahrscheinlichkeitsraum, falls

a) $\Omega$ nichtleere Menge

b) ${\mathcal {S}}$ $\sigma$ -Algebra über $\Omega$

c) $P:{\mathcal {S}}\to [0,1]$ mit

(i)

P(\Omega )=1

(ii)

P(\cup _{i=1}^{\infty }A_{i})=\sum _{i=1}^{\infty }P(A_{i})

für paarweise disjunkte

A_{1},A_{2},...\in {\mathcal {S}}

Bemerkung

1. $P$ heißt Wahrscheinlichkeitsverteilung auf $(\Omega ,{\mathcal {S}})$ . Auch die übrigen Bezeichnungen vom Beginn der Vorlesung sind weiterhin gültig, wenn man ${\mathcal {S}}(\Omega )$ durch die $\sigma$ -Algebra ${\mathcal {S}}$ ersetzt ( $A\in {\mathcal {S}}$ statt $A\in \Omega$ (oder $A\in {\mathcal {S}}(\Omega )$ )).

2. Der diskrete Wahrscheinlichkeitsraum ergibt sich als Spezialfall der Definition: $\Omega$ abzählbar, ${\mathcal {S}}={\mathcal {S}}(\Omega )=\sigma \lbrace \lbrace w\rbrace w\in \Omega \rbrace$ .

Borelsche σ-Algebra

Konstruktion der Borelschen $\sigma$ -Algebra über $\Omega =\mathbb {R} ^{k},k\geq 1$ . Das Mengensystem ${\mathcal {I}}^{k}\subset {\mathcal {S}}(\mathbb {R} ^{k})$ bestehe aus allen k-dimensionalen Intervallen. Für $a=(a_{1},...a_{k}),b=(b_{1},...,b_{k})\in \mathbb {R} ^{k}$ (d.h. $a_{i}=-\infty$ und $b_{i}=+\infty$ sind zugelassen) mit $a<b$ (d.h. $a_{i}<b_{i}$ für $i=1,...,k$ ) definiert man das k-dimensionale Intervall $(a,b]=\otimes _{i=1}^{n}(a_{i},b_{i}]=\lbrace x\in \mathbb {R} ^{k}:a_{i}<x_{i}<b_{i}$ , für $i=1,...,k\rbrace$ .
Man führt das Mengensystem ${\mathcal {I}}^{k}=\lbrace (a,b],a<b\rbrace$ ein (beachte $\mathbb {R} ^{k}\in {\mathcal {I}}^{k}$ ).
Sei ${\mathcal {B}}^{k}=\sigma ({\mathcal {I}}^{k})$ die kleinste $\sigma$ -Algebra, die alle $k$ -dimensionalen Intervalle auf ${\mathcal {I}}^{k}$ enthält. ${\mathcal {B}}$ heißt $\sigma$ -Algebra der Borelschen Mengen oder kurz Borelsche $\sigma$ -Algebra.

Satz

Satz aus der Topologie/Maßtheorie:

a) Die $\sigma$ -Algebra ${\mathcal {B}}^{k}$ der Borelschen Mengen enthält alle offenen und alle abgeschlossenen Mengen des $\mathbb {R} ^{k}$ .

b) Es gibt nicht-Borelsche Mengen des $\mathbb {R} ^{k}$ .

c) ${\mathcal {B}}^{k}$ wir auch erzeugt von jedem der drei folgenden Mengensystemen:

das System der offenen Intervalle $(a,b)$ des $\mathbb {R} ^{k}$ .
das System der abgeschlossenen Intervalle $[a,b]$ des $\mathbb {R} ^{k}$ .
das System der links abgeschlossenen und rechts offenen Mengen $[a,b)$ des $\mathbb {R} ^{k}$ .

Zur Festlegung einer Wahrscheinlichkeitsverteilung $P$ auf $\mathbb {R} ^{k}$ braucht man nicht alle $P(B),B\in {\mathcal {B}}^{k}$ auf allen Intervallen. Es gilt nämlich folgender Satz.

Fortsetzungssatz von Caratheodory

Sei ${\tilde {P}}:{\mathcal {I}}^{k}\to [0,1]$ eine Abbildung, so dass gilt:

i) ${\tilde {P}}(\mathbb {R} ^{k})=1$

ii) ${\tilde {P}}(\cup _{i=1}^{\infty }I_{i})=\sum _{i=1}^{\infty }{\tilde {P}}(I_{i})$ für paarweise disjunkte $I_{1},I_{2},...\in {\mathcal {I}}^{k}$ mit $\cup _{i=1}^{\infty }I_{i}\in {\mathcal {I}}^{k}$

Dann existiert genau eine Wahrscheinlichkeitsverteilung $P$ auf ${\mathcal {B}}^{k}$ , so dass $P|{\mathcal {I}}^{k}={\tilde {P}}$ (d.h. $P(I)={\tilde {P}}(I)$ für alle $I\in {\mathcal {I}}^{k}$ ). ( $P$ heißt Fortsetzung von ${\tilde {P}}$ auf ganz ${\mathcal {B}}^{k}$ .)

Bemerkung

Öfter ist nun eine Teilmenge von $\mathbb {R} ^{k}$ als Ergebnisraum $\Omega$ von Interesse (z.B.: $\Omega =[0,1]^{k}$ ). Dann werden alls Größen auf $\Omega \subset \mathbb {R} ^{k}$ eingeschränkt: $\Omega \cap {\mathcal {I}}^{k}=\lbrace \Omega \cap I,I\in {\mathcal {I}}^{k}\rbrace$ statt ${\mathcal {I}}^{k}$ ; $\Omega \cap {\mathcal {B}}^{k}=\lbrace \Omega \cap {\mathcal {B}}^{k},B\in {\mathcal {B}}^{k}\rbrace$ statt ${\mathcal {B}}^{k}$ ('Borelsche Mengen in $\Omega$ '); $P|\Omega \cap {\mathcal {B}}^{k}$ statt $P$ ('Restriktion von $P$ auf $\Omega \cap {\mathcal {B}}^{k}$ '). $(\Omega ,\Omega \cap {\mathcal {B}}^{k},P|\Omega \cap {\mathcal {B}}^{k})$ bilden einen Wahrscheinlichkeitsraum.

Idealisiertes Roulette (Beispiel)

$\Omega =[0,2\pi ),\Omega \cap {\mathcal {I}}^{1}=\lbrace (a,b],0\leq a<b\leq 2\pi \rbrace$ .

Durch ${\tilde {P}}(a,b]={\frac {b-a}{2\pi }}$ wird auf $\Omega \cap {\mathcal {I}}^{1}$ eine Abbildung in $[0,1]$ definiert, welche die Eigenschaften i) und ii) des Fortsetzungssatzes erfüllt.

${\tilde {P}}$ legt eine Wahrscheinlichkeitsverteilung $P$ auf $\Omega \cap {\mathcal {B}}^{1}$ fest ('Gleichverteilung auf $[0,2\pi )$ ').

Beispiel

Zeitpunkt des Auftretens eines Ereignisses $\Omega =[0,\infty )$ ; durch ${\tilde {P}}(a,b]=e^{-\lambda a}e^{-\lambda b},0\leq a\leq b\leq \infty$ ( $\lambda >0$ fest) wird eine Wahrscheinlichkeitsverteilung $P$ auf $[0,\infty )\cap {\mathcal {B}}^{1}\equiv {\mathcal {B}}_{+}^{1}$ festgelegt ('Exponentialverteilung mit Paramter $\lambda$ ').

Bemerkung

Zukünftig schreiben wir statt ${\tilde {P}}$ ebenfalls $P$ .

Unabhängigkeit

Die Unabhängigkeit von Ereignissen $A_{1},...,A_{n}\in {\mathcal {S}}$ in einem Wahrscheinlichkeitsraum $(\Omega ,{\mathcal {S}},P)$ definiert man wie bereits geschehen durch die Eigenschaft: $P(A_{j_{1}}\cap ...\cap A_{j_{k}})=P(A_{j_{1}})\cdot ...\cdot P(A_{j_{k}})$ für alle $\varnothing \neq \lbrace j_{1},...,j_{k}\rbrace \subset \lbrace 1,...,n\rbrace$ . Sind $P_{1},...P_{k}$ Wahrscheinlichkeitsverteilungene auf $(\mathbb {R} ,{\mathcal {B}}^{1})$ , so heißt die Wahrscheinlichkeitsverteilung $P$ auf $(\mathbb {R} ^{k},{\mathcal {B}}_{j}^{k})$ Produkt der $P_{1},...,P_{k}$ , kurz $P=P_{1}\times ...\times P_{k}$ , falls $P(B_{1}\times ...\times B_{k})=P_{1}(B_{1})\cdot ...\cdot P_{k}(B_{k})$ für alle $B_{1},...,B_{k}\in {\mathcal {B}}^{1}$ .

Bemerkung

Der Begriff des Produktes von (allgemeinen) Wahrscheinlichkeitsräumen $(\Omega _{i},{\mathcal {S}}_{i},P_{i})$ , $i=1,...,n$ verlangt den Begriff der Produkt- $\sigma$ -Algebra ${\mathcal {U}}={\mathcal {S}}_{1}\times ...\times {\mathcal {S}}_{k}$ . Wir beschränken uns auf den Spezialfall ${\mathcal {S}}_{i}={\mathcal {B}}^{1},{\mathcal {U}}={\mathcal {B}}^{k}$ , für den wir diesen Begriff nicht benötigen.

(Elementare) bedingte Wahrscheinlichkeit

Der Begriff $P(B|A)$ , falls $P(A)>0$ , der (elementaren) bedingten Wahrscheinlichkeit, und die Formel von der totalen Wahrscheinlichkeit, Bayessche Formel, Produkt gelten auf die Wahrscheinlichkeitsräume $(\Omega ,{\mathcal {S}},P)$ , falls alle auftretenden Ereignisse $A,B,A_{1},...,A_{m}$ aus ${\mathcal {S}}$ genommen werden. Der allgemeine Begriff der bedingten Wahrscheinlichkeitsverteilung und des bedingten Erwartungswertes werden hier nicht gebraucht.

Verteilungsfunktion, Dichte

Zunächst Beschränkung auf den Wahrscheinlichkeitsraum $(\mathbb {R} ,{\mathcal {B}}^{1},P)$ . Zur Festlegung von Wahrscheinlichkeitsverteilungen auf $(\mathbb {R} ,{\mathcal {B}}^{1})$ (bzw. auf $(\mathbb {R} \cap \Omega ,{\mathcal {B}}^{1}\cap \Omega )$ ) reicht es aus, wegen $(a,b]=(-\infty ,b]\setminus (-\infty ,a]$ und $P(a,b]=P(-\infty ,b]-P(-\infty ,a]$ , alleine die Funktion $F(t)=P(-\infty ,t],t\in \mathbb {R}$ zu betrachten.

(kumulative) Verteilungsfunktion (Definition)

Sei $P$ eine Wahrscheinlichkeitsverteilung auf $(\mathbb {R} ,{\mathcal {B}}^{1})$ . Dann heißt die Funktion $F_{P}:\mathbb {R} \to [0,1],F_{P}(t)=P(-\infty ,t],t\in \mathbb {R}$ , (kumulative) Verteilungsfunktion von $P$ .

(Im Folgenden sei $F(t+)=lim_{s\downarrow t}F(s),F(t-)=lim_{s\uparrow t}F(s)$ , (falls existiert).)

Satz

Sei $F(t)\equiv F_{P}(t),t\in \mathbb {R}$ , Verteilungsfunktion von $P$ . Dann gilt:

i) $F(t)$ ist (nicht notwendig streng) monoton wachsend, $0\leq F(t)\leq 1$ .

ii) $F(t+)=F(t)$ ("rechtsseitig stetig")

iii) $F(t-)=F(t)-P(\lbrace w\rbrace )$

iv) $lim_{t\to -\infty }F(t)=0,lim_{t\to \infty }F(t)=1$

Beweis (1)

i) Monotonieeigenschaft von $P$ .

ii) Sei $t_{n}\downarrow t(t_{n}>t)$ . Zerlege $(t,t_{n}]=\bigcup _{i=n}^{\infty }(t_{i+1},t_{i}]$ . Dann ist

F(t+)=lim_{n\to \infty }F(t_{n})=lim_{n\to \infty }[F(t)+P(t,t_{n}]]

=lim_{n\to \infty }[F(t)+\sum _{i=n}^{\infty }P(t_{i+1},t_{i}]]=F(t)+0

da die Reihe $\sum _{i=1}^{\infty }P(t_{i+1},t_{i}]=P(t,t_{1}]<\infty$ konvergiert.

Beweis (2)

iii) Sei $t_{n}\uparrow t(t_{n}<t)$ . Zerlege $(t_{1},t_{n}=\bigcup _{i=1}^{n-1}(t_{i},t_{i+1}]$ . Dann ist

F(t-)=lim_{n\to \infty }F(t_{n})=lim_{n\to \infty }[F(t_{1})+P(t_{1},t_{n}]]

=lim_{n\to \infty }[F(t_{1}1)+\sum _{i=1}^{n-1}P(t_{i},t_{i+1}]]

=F(t_{1})+P(\bigcup _{i=1}^{\infty }(t_{i},t_{i+1}])=F(t_{1})+P(t_{1},t)

=P(-\infty ,t)=F(t)-P(\lbrace w\rbrace )

iv) Analog zu ii) und iii).

Bemerkung

Die Limiten in ii), iii), iv) existieren wegen i).

Notation

Im Folgenden bezeichne $\langle a,b\rangle$ für $-\infty \leq a<b\leq \infty$ eines der Intervalle $[a,b],(a,b),[a,b),(a,b]$ . Wobei im Fall $a=-\infty$ nur $(-\infty ,b\rangle$ und im Fall $b=\infty$ nur $\langle a,\infty )$ zugelassen wird.

Formeln für P⟨a,b⟩ </math>

Sei $F$ Verteilungsfunktion von $P$ .

$P(a,b]=F(b)-F(a)$ , inbesondere $P(-\infty ,b)=F(b)$ .
$P(a,b)=F(b-)-F(a)$ , inbesondere $P(a,\infty )=1-F(a)$ .
$P[a,b]=P(b)-P(a-)$ .
$[a,b)=F(b-)-F(a-)$ .

Bemerkungen

1. Falls $F$ bei $a$ stetig und $F$ auf dem Intervall $[a,b]$ konstant ist, so ist $P[a,b]=0$ .

2. Zusammen mit dem Fortsetzungssatz folgt, dass $P$ durch Vorgabe einer Verteilungsfunktion (d.i. eine Funktion $F(t),t\in \mathbb {R}$ , mit den Eigenschaften i), ii), iv)) eindeutig festgelegt wird, wenn man setzt $P(a,b]=F(b)-F(a)$ .

Im Fall der Exponentialverteilung aus dem Beispiel 1.5.3, bei der $F(t)=\left\{{\begin{array}{ll}0,&t<0\\\lambda e^{-\lambda t},&t\geq 0\end{array}}\right.$ ist, stellt man fest, dass $F'=f$ bzw. $F(t)=\int _{-\infty }^{t}f(x)dx$ , mit $f(x)=\left\{{\begin{array}{ll}0,&x<0\\\lambda e^{-\lambda t},&x\geq 0\end{array}}\right.$ .

Wahrscheinlichkeitsdichte (Definition)

Sei $F_{P}(t),t\in \mathbb {R}$ , Verteilungsfunktion von $P$ . Existiert dann eine messbare Funktion $f_{P}:\mathbb {R} \to [0,\infty )$ mit $F_{P}(t)=\int _{-\infty }^{\infty }f_{P}(x)dx$ für alle $t\in \mathbb {R}$ , so heißt $f_{P}(x),x\in \mathbb {R}$ , Wahrscheinlichkeitsdichte oder kurz Dichte von $P$ .

Bemerkung

1. Das Integral $\int _{-\infty }^{\infty }$ lässt sich als uneigentliches Riemann-Integral oder als Lebesgue-Integral auffassen. Der Begriff 'messbar' wird später erläutert.

2. Ist die stetige Verteilungsfunktion $F$ auf $\mathbb {R} \setminus D$ ( $D$ leer oder endlich) stetig differenzierbar, so besitzt $F$ die Dichte $f(x)=F'(x),x\in \mathbb {R} \setminus D$ , ( $f(x)$ auf $D$ beliebig festgelegt).

3. Besitzt $F$ eine Dichte, so ist $F(t),t\in \mathbb {R}$ stetig (d.h. $F(t)=F(t+)=F(t-)$ ) und die Formeln für $P\langle a,b\rangle$ liefert für alle vier Intervalltypen die Formel $P\langle a,b\rangle =F(b)-F(a)$ .

Satz

Besitzt eine Wahrscheinlichkeitsverteilung $P$ auf $(\mathbb {R} ,{\mathcal {B}})$ eine Dichte $f=f_{P}$ , so gilt:

P\langle a,b\rangle =\int _{a}^{b}f(x)dx

Insbesondere gilt:

\int _{-\infty }^{\infty }f(x)dx=1

Beweis

Folgt direkt aus Bemerkung 3.

Bemerkung

1. Wir können also eine Dichte $f$ durch die Eigenschaft $f:\mathbb {R} \in [0,\infty )$ , $f$ integrierbar mit $\int _{-\infty }^{\infty }f(x)dx=1$ festlegen.

2. Durch Vorgabe einer Dichte $f$ ist eine Wahrscheinlichkeitsverteilung $P$ auf $(\mathbb {R} ,{\mathcal {B}})$ eindeutig festgelegt.

3. Der Begriff der Dichte spielt im Fall $\Omega =\mathbb {R}$ die gleiche Rolle wie der Begriff der Wahrscheinlichkeitsfunktion im Falle eines abzählbaren $\Omega$ (nur: eine Dichte braucht nicht notwendigerweise zu existieren!).

Gleichverteilung (Beispiel)

Gleichverteilung auf dem Intervall $\Omega =[A,B]\subset \mathbb {R} ,A<B$ .

Dichte:

f(x)=\left\{{\begin{array}{ll}0,&x\notin [A,B]\\{\frac {1}{B-A}},&x\in [A,B]\end{array}}\right.

Verteilungsfunktion:

F(x)=\left\{{\begin{array}{ll}0,&x<A\\{\frac {x-A}{B-A}},&A\leq x\leq B\\1,&x>B\end{array}}\right.

Exponentialverteilung (Beispiel)

Exponentialverteilung mit dem Parameter $\lambda >0$ :

Dichte:

f(x)=\left\{{\begin{array}{ll}0,&x<0\\\lambda e^{-\lambda x},&x\geq 0\end{array}}\right.

Verteilungsfunktion:

F(x)=\left\{{\begin{array}{ll}0,&x<0\\1-e^{-\lambda e},&x\geq 0\end{array}}\right.

Verwendung:

Wartezeit (bis zum Eintreten eines Ereignisses).

Diskrete Verteilung (Beispiel)

Diskrete Verteilung auf $\lbrace x_{1},x_{2},...\rbrace \subset \mathbb {R}$ (oder $\lbrace x_{1},...,x_{n}\rbrace \subset \mathbb {R}$ ) mit vorgegebener Wahrscheinlichkeitsfunktion $P\lbrace x_{i}\rbrace$ . Setze für $A\in {\mathcal {B}}^{1}$

P(A)=\sum _{i,x_{i}\leq x}P(\lbrace x_{i}\rbrace )

$P$ bildet ein Wahrscheinlichkeitsmaß auf $(\mathbb {R} ,{\mathcal {B}})$ , mit der Verteilungsfunktion:

F(x)=\sum _{i:x_{i}\leq x}P(\lbrace x_{i}\rbrace )

Es existiert jedoch keine Dichte!

Normalverteilung (Beispiel)

Normalverteilung mit Parametern $\mu$ und $\sigma ^{2},\mu \in \mathbb {R} ,\sigma ^{2}>0$ :

Dichte:

\phi _{\mu ,\sigma ^{2}}(x)={\frac {1}{{\sqrt {2\pi }}\sigma }}e^{{\frac {1}{2}}\cdot ({\frac {x-\mu }{\sigma }})^{2}}

Verteilungsfunktion:

\Phi _{\mu ,\sigma ^{2}}(x)=\int _{-\infty }^{x}\phi _{\mu ,\sigma ^{2}}(t)dt

Abkürzung: $N(\mu ,\sigma ^{2})$

Verwendung: Symmetrisch um einen 'wahren' Wert $\mu$ streuende Messgröße.

Spezialfall: $N(0,1)$ 'Standard-Normalverteilung', man schreibt $\phi =\phi _{0,1},\Phi =\Phi _{0,1}$ .

Umrechnung (1)

$\phi _{\mu ,\sigma ^{2}}(x)={\frac {1}{\sigma }}\phi ({\frac {x-\mu }{\sigma }}),\Phi _{\mu ,\sigma ^{2}}(x)=\Phi ({\frac {x-\mu }{\sigma }})$ (Substitutionsregel)

Aus dieser Beziehung folgt:

\int _{-\infty }^{\infty }\phi _{\mu ,\sigma ^{2}}(x)dx=\Phi _{\mu ,\sigma ^{2}}(\infty )=\Phi (\infty )=\int _{-\infty }^{\infty }\phi (x)dx=1,

so dass $\phi _{\mu ,\sigma ^{2}}$ eine Dichte ist.

Umrechnung (2)

Das Konzept der Dichte lässt sich auch im Fall $\Omega =\mathbb {R} ^{k}$ verwirklichen. Eine Dichte im $\mathbb {R} ^{k}$ ist eine nicht negative (aber messbare) Funktion $f(x)=f(x_{1},...,x_{k}),x\in \mathbb {R}$ mit (Integrierbarkeit vorausgesetzt):

\int _{\mathbb {R} ^{k}}f(x_{1},...,x_{k})d^{k}x=1

Für ein $B\in {\mathcal {B}}^{k}$ definiert man

\int _{B}f(x_{1},...,x_{k})d^{k}x=\int _{\mathbb {R} ^{k}}f(x)d^{k}x=\int _{\mathbb {R} ^{k}}1_{B}(x)f(x)d^{k}x.

Wir benötigen den folgenden Satz der Integrationstheorie.

Satz

Ist $f\geq 0$ eine integrierbare Funktion auf dem $\mathbb {R} ^{k}$ , so wird durch $B\mapsto \int _{B}f(x)d^{k}x,b\in {\mathcal {B}}^{k}$ eine $\sigma$ -additive Abbildung von ${\mathcal {B}}^{k}$ in $[0,\infty )$ definiert. D.h. für paarweise disjunkte $B_{1},...,B_{k}\in {\mathcal {B}}^{k}$ gilt:

\int _{\bigcup B_{i}}f(x)d^{k}x=\sum _{i=1}^{\infty }\int _{B_{i}}f(x)d^{k}x

Beweis

Über den Satz der monotonen Konvergenz.

Satz

Sei $f(x),x\in \mathbb {R} ^{k}$ eine Dichte und $(a,b]$ ein $n$ -dimensionales Intervall $(a,b]=\otimes _{i=1}^{k}(a_{i},b_{i}]$ .

a) Setzt man

(*)

P(a,b]=\int _{(a,b]}f(x)d^{k}x

so wird eine Wahrscheinlichkeitsverteilung $P$ auf $(\mathbb {R} ^{k},{\mathcal {B}}^{k})$ eindeutig festgelegt. (Anstelle von $(a,b]$ lässt sich auch jeder andere Intervalltyp $\langle a,b\rangle =\otimes _{i=1}^{k}\langle a_{i},b_{i}\rangle$ einsetzen.)

b) Für die Wahrscheinlichkeitsverteilung $P$ aus a) gilt, allgemeiner als (*):

P(B)=\int _{B}f(x)d^{k}x(B\in {\mathcal {B}}^{k})

Beweis

a) Durch (*) wird eine Abbildung $P:F^{k}\to [0,1]$ definiert, die wegen $\int _{\mathbb {R} ^{k}}f(x)d^{k}x=1$ normiert ist und aufgrund des vorangegangenen Satzes $\sigma$ -additiv auf $F^{k}$ ist. Nach dem Fortsetzungssatz hat sie eine eindeutige Fortsetzung auf ${\mathcal {B}}^{k}$ .

b) Folgt dann aus dem vorangegangenen Satz und der Eindeutigkeitsaussage von a).

Beispiel

$k$ -dimensionale Normalenverteilung mit Paramter $\mu \in \mathbb {R} ^{k}$ und $\Sigma$ (symmetrische $k\times k$ -Matrix, positiv definit), kurz $N(\mu ,\Sigma )$ -Verteilung.

Dichte:

f(x)={\frac {1}{\sqrt {(s\pi )^{k}det(\Sigma )}}}e^{-{\frac {1}{2}}(x-\mu )^{T}\cdot \Sigma ^{-1}\cdot (x-\mu )}

mit

x\in \mathbb {R} ^{k}.

Abkürzung:

(N_{k}(\mu ,\Sigma )).

Spezialfall

$N_{k}(0,I_{k})$ ( $k$ -dimensionale Standard-Normalenverteilung).

Im Fall $\mu =0\in \mathbb {R} ^{k}$ und $\Sigma =I_{k}$ ( $k$ -dimensionale Einheitsmatrix) reduziert sich die Gleichung der Dichte aus dem obigen Beispiel auf

f(x)={\frac {1}{\sqrt {(s\pi )^{k}}}}e^{-{\frac {1}{2}}(x_{1}^{2}+...+x_{k}^{2})}=\Pi _{i=1}^{k}{\frac {e^{-{\frac {1}{2}}x}}{\sqrt {(s\pi )}}}

mit

x=(x_{1},...,x_{k})\in \mathbb {R} ^{k}

.

$f(x)$ hat die Normierungseigenschaft.

Zufallsvariablen, Zufallsvekoren

Zu Beginn der Vorlesung hatten wir jede Abbildung: $\Omega \to \Omega '$ als Zufallsgröße bezeichnet: $(\Omega ,{\mathcal {S}},P)\to (\Omega ',{\mathcal {S}}',P_{X})$ . Jetzt müssen wir sicherstellen, dass die Urbilder $X^{-1}(A'),A'\in {\mathcal {S}}'$ auch Element von ${\mathcal {S}}$ sind.

Zufallsgröße (Definition)

a) Sind $(\Omega ,{\mathcal {S}}),(\Omega ',{\mathcal {S}}')$ messbare Räume, so heißt eine Abbildung $X:\Omega \to \Omega '$ Zufallsgröße (auf $(\Omega ,{\mathcal {S}})$ , mit Werten in $\Omega '$ ), falls

X^{-1}(A')\in {\mathcal {S}}\forall A'\in {\mathcal {S}}'

b) Ist $X:\Omega \to \Omega '$ Zufallsgröße und $P$ eine Wahrscheinlichkeitsverteilung auf $(\Omega ,{\mathcal {S}})$ , so heißt $P_{X}:{\mathcal {S}}'\to [0,1]$ mit

P_{X}(A')=P(X^{-1}(A')),A'\in {\mathcal {S}}'

Verteilung von $X$ .

Bemerkung

1. Man zeige genau wie zu Beginn der Vorlesung, dass $P_{X}$ eine Wahrscheinlichkeitsverteilung auf $(\Omega ',{\mathcal {S}}')$ ist.

2. In der Maßtheorie nennt man eine Abbildung $X$ mit der Eigenschaft a) messbar bezüglich ${\mathcal {S}},{\mathcal {S}}'$ . (Eine messbare Funktion $f:\mathbb {R} ^{k}\to \mathbb {R}$ ist also messbar bezüglich ${\mathcal {B}}^{k},{\mathcal {B}}^{1}$ .)

3. Im Fall $\Omega '=\mathbb {R} ^{k},{\mathcal {S}}'={\mathcal {B}}^{k}$ spricht man von einem $k$ -dimensionalen Zufallsvektor, im Fall $k=1$ von einer Zufallsvariablen.

4. Es gibt nichtmessbare Funktionen $F:\mathbb {R} \to \mathbb {R}$ . Ist nämlich $C\subset \mathbb {R} ^{1}$ nicht borelsch, so ist $f=1_{C}$ nicht messbar.

Satz

Seien $(\Omega ,{\mathcal {S}}),(\Omega ',{\mathcal {S}}')$ messbare Räume, $F'\subset {\mathcal {S}}'$ sei Erzeugendensystem von ${\mathcal {S}}'$ (d.h. $\sigma (F')={\mathcal {S}}'$ ). Die Abbildung $X:\Omega \to \Omega '$ ist genau dann Zufallsgröße, wenn

$X^{-1}(A')\in {\mathcal {S}},\forall A'\in F'$ .

Beweis

Aus 1) folgt 3) (trivial). Sei nun 3) erfüllt. Setze

\phi '=\lbrace A'\in {\mathcal {S}}':X^{-1}(A')\in {\mathcal {S}}\rbrace

,

man zeigt, dass $\phi '$ eine $\sigma$ -Algebra ist. Aus $F'\subset \phi '\subset {\mathcal {S}}'$ folgt

{\mathcal {S}}'=\sigma (F')\subset \sigma (\phi ')=\phi '\subset \sigma ({\mathcal {S}}')={\mathcal {S}}'\Rightarrow \phi '={\mathcal {S}}'.

Korollar

Sei $(\Omega ,{\mathcal {S}})$ ein messbarer Raum, $X:\Omega \to \mathbb {R}$ ist Zufallsvariable genau dann, wenn

\lbrace X<b\rbrace \equiv X^{-1}(-\infty ,b]\in {\mathcal {S}},\forall b\in \mathbb {R}

(äquivalent: $\leq ,\geq ,>$ statt $<$ )
Insbesondere ist jede stetige (stückweise stetige) Abbildung $X:\mathbb {R} ^{k}\to \mathbb {R}$ Zufallsvariable auf $(\mathbb {R} ^{k},{\mathcal {B}}^{k})$ .

Beweis

Setze $F'=\lbrace (-\infty ,b]:b\in \mathbb {R} \rbrace$ . Man zeigt, dass $\sigma (F')={\mathcal {B}}^{1}$ , so dass der vorangegangene Satz anwendbar ist. Für ein stetiges $X:\mathbb {R} ^{k}\to \mathbb {R}$ ist $X^{-1}(-\infty ,b)$ offene Menge, ist in $\mathbb {R} ^{k}$ , also aus ${\mathcal {B}}^{k}$ .

Satz

Sei $X=(X_{1},...,X_{,}k)$ eine Abbildung: $\Omega \to \mathbb {R} ^{k}$ , und $(\Omega ,{\mathcal {S}})$ messbarer Raum. Dann ist $X$ ein Zufallsvektor genau dann, wenn jedes $X_{i}$ eine Zufallsvariable ist ( $i=1,...,k$ ).

Beweis

Es gilt:

X_{i}^{-1}(a,b]=X^{-1}(\mathbb {R} \times ...\times \mathbb {R} \times (a,b]\times \mathbb {R} \times ...\times \mathbb {R} )

mit $(a,b]$ an der $i$ -ten Stelle, woraus die Behauptung folgt.

Satz

Sind $(\Omega ,{\mathcal {S}}),(\Omega ',{\mathcal {S}}'),(\Omega '',{\mathcal {S}}'')$ messbare Räume und $X:\Omega \to \Omega ',Y:\Omega '\to \Omega ''$ Zufallsgrößen, so ist auch $Y\circ X:\Omega \to \Omega ''$ eine Zufallsgröße (Beweis klar).

Sprechweise

Die eingeführte Notaion " $F$ ist eine Verteilungsfunktion von $P$ " und " $f$ ist Dichte von $P$ " wird durch die Verteilung $P_{X}$ von $X$ angewandt:

Man sagt dann " $F$ ist Verteilungsfunktion von $X$ "(d.h. $F_{X}(x)=P(x\in X)=P_{X}(-\infty ,x]$ für eine Zufallsvariable von $X$ ) und $f_{X}$ ist Dichte von $X$ (aber $X$ hat Dichte $f$ ).

Beispiel

Ist die Zufallsvariable $X$ eine Wartezeit und $P_{X}$ eine Exponentialverteilung (mit $\lambda >0$ ), so hat $X$ die

Verteilungsfunktion:

F_{X}(x)=\left\{{\begin{array}{ll}0,&x<0\\1-e^{-\lambda x},&x\geq 0\end{array}}\right.

bzw. die Dichte:

f_{X}(x)=\left\{{\begin{array}{ll}0,&x<0\\\lambda e^{-\lambda x},&x\geq 0\end{array}}\right.

Hat der Zufallsvektor $X=(X_{1},...,X_{k})$ die Dichte $f(x)=f_{X}(x),x\in \mathbb {R} ^{k}$ , so gilt für ein $k$ -dimensionales Intervall $(a,b]=\otimes _{i=1}^{k}(a_{i},b_{i}]$ :

P_{X}(a,b]=\int _{a_{k}}^{b_{k}}...\int _{a_{1}}^{b_{1}}f(x_{1},...,x_{k})dx_{1}...dx_{k}

Hat $X$ die Dichte $f(x),x\in \mathbb {R} ^{k}$ , so hat die Komponente $X_{i}$ die Randdichte

f_{X_{i}}(x_{i})=\int _{\mathbb {R} ^{k-1}}f(x_{1},...,x_{k})dx_{1}...dx_{i-1}dx_{i+1}...dx_{k}

.

Der folgende Satz gibt die Dichte von $\phi \circ X$ an, wenn die Dichte von $X$ gegeben ist.

Transformationssatz für Dichten

Der $k$ -dimensionale Zufallsvektor $X$ besitzt die Dichte $f(x),x\in \mathbb {R} ^{k}$ , wobei für eine offene Menge $U\subset \mathbb {R} ^{k}$ gilt: $f(x)=0$ für $x\notin U$ . Sei $\phi :U\to V,V\subset \mathbb {R} ^{k}$ eine bijektive Abbildung mit $\phi ,\phi ^{-1}$ stetig differenzierbar.

Dann hat der $k$ -dimensionale Zufallsvektor $Y=\phi \circ X$ eine Dichte und es gilt

g(y)=0,y\notin V

g(y)=f(\phi ^{-1}(y))\cdot |det({\frac {d\phi ^{-1}}{dy}}(y))|,y\in V

wobei $({\frac {d\phi ^{-1}}{dy}}(y))=({\frac {d\phi _{i}^{-1}}{dy_{j}}}(y)),(i,j=1,...,k)$ die $k\times k$ Funktionsmatrix von $\phi ^{-1}$ ist.

Bemerkung

Zur Festlegung der Verteilung (und damit der Dichte) von $Y=\phi \circ X$ genügt es, $\phi$ alleine auf $U$ festzulegen. Sind nämlich $\phi$ und ${\tilde {\phi }}:\mathbb {R} ^{k}\to \mathbb {R} ^{k}$ mit $\phi |U={\tilde {\phi }}|U$ , so gilt $P_{{\tilde {\phi }}\circ X}=P_{\phi \circ X}$ .

In der Tat, sei $B\in {\mathcal {B}}^{k}$ , dann

P_{{\tilde {\phi }}\circ X}(B)=P(X\in {\tilde {\phi }}^{-1}(B))=P(X\in {\tilde {\phi }}^{-1}(B)\cap U)

=P(X\in \phi ^{-1}(B)\cap U)=P(X\in \phi ^{-1}(B))=P_{\phi \circ X}(B)

die zweite Gleichheit gilt wegen

P(X\in {\bar {U}})=\int _{\bar {U}}f(x)dx=0,

da $f(x)=0$ für $x\notin U$ .

Beweis

Sei $A\in {\mathcal {B}}^{k}$ offen, dann gilt wegen der zweiten Gleichheit ( $P(X\in {\bar {U}})=0$ ):

P_{\phi \circ X}(A)=P(X\in \phi ^{-1}(A))=P(X\in \phi ^{-1}(A)\cap U)

=\int _{\phi ^{-1}(A)\cap U}f(x)dx=\int _{\phi ^{-1}(a\cap V)}f(x)dx

=\int _{(A\cap V)}f(\phi ^{-1}(x))\cdot |det{\frac {d\phi ^{-1}}{dy}}(y)|dy\equiv \int _{A}g(y)dy

wobei wir den Transformationssatz für Integrale angewandt haben. Speziell gilt für offenes $A=\otimes _{i=k}^{k}(a_{i},b_{i})$ :

P_{\phi \circ X}(A)=\int _{a_{k}}^{b_{k}}...\int _{a_{1}}^{b_{1}}g(y)dy

d.h. $g(y)$ ist Dichte von $\phi \circ X$ .

Korollar

Besitzt der $k$ -dimensionale Zufallsvektor $X$ die Dichte $f(x),x\in \mathbb {R} ^{k}$ , so lautet die Dichte $g(y),y\in \mathbb {R} ^{k}$ von $Y=A\cdot X+b$ , (A invertierbare $k\times k$ -Matrix, $b\in \mathbb {R} ^{k}$ )

g(y)={\frac {1}{|detA|}}f(A^{-1}(y-b)),y\in \mathbb {R} ^{k}.

Beweis

\phi (X)=A\cdot X+b

ist auf

U=\mathbb {R} ^{k}

bijektiv, mit

\phi ^{-1}(y)=A^{-1}(y-b)

und

det({\frac {d\phi ^{-1}(y)}{dy}})=det(A^{-1})={\frac {1}{det(A)}}.

Beispiel

$k$ -dimensionale Normalenverteilung.

1. Ist $X$ $N(0,I_{k})$ -verteilt (d.h. $f(x)=({\frac {1}{\sqrt {2\pi }}})^{k}e^{-{\frac {1}{2}}x^{T}x},x=(x_{1},...,x_{k})^{T}$ ), so besitzt $Y=A\cdot X+\mu$ ( $A$ invertierbare $k\times k$ -Matrix, $\mu \in \mathbb {R} ^{k}$ ) die Dichte

g(y)={\frac {1}{|det(A)|}}({\frac {1}{\sqrt {2\pi }}})^{k}\cdot e^{-{\frac {1}{2}}(y-\mu )^{T}(A^{-1})^{T}\cdot A^{-1}(y-\mu )}

={\frac {1}{\sqrt {(2\pi )^{k}det(\Sigma )}}}e^{-{\frac {1}{2}}(y-\mu )^{T}\cdot \Sigma ^{-1}(y-\mu )}

mit $\Sigma =A\cdot A^{T}$ . (Dann ist $\Sigma ^{-1}=(A\cdot A^{T})^{-1}=(A^{-1})\cdot A^{-1}$ , $\Sigma$ symmetrisch, positiv definit, $det(\Sigma )=(det(A))^{2}$ ). $Y$ ist also $N_{k}(\mu ,\Sigma )$ -verteilt.

2. Ist umgekehrt $YN_{k}(\mu ,\Sigma )$ -verteilt ( $\Sigma$ symmetrisch, positiv definit), so ist $X=(\Sigma ^{-{\frac {1}{2}}})^{T}\cdot (y-\mu )N_{k}(0,I_{k})$ -verteilt. Dabei ist $\Sigma ^{-{\frac {1}{2}}}$ eine intvertierbare $k\times k$ -Matrix mit $\Sigma ^{-1}=(\Sigma ^{-{\frac {1}{2}}})\cdot (\Sigma ^{-{\frac {1}{2}}})^{T}$ ( $(\Sigma ^{-{\frac {1}{2}}})^{T}=A$ aus 1.).

Bemerkung

Für symmetrische, positiv definite $B$ existieren verschiedene "Wurzeln" $B^{\frac {1}{2}}$ von $B$ mit (+) $B=B^{\frac {1}{2}}\cdot (B^{\frac {1}{2}})^{T}$ (oben mit $B=\Sigma ^{-1},B^{\frac {1}{2}}=A^{-1}$ ):

1. symmetrische Wurzel, $B^{\frac {1}{2}}$ symmetrisch, positiv definit

2. Cholesky Wurzel, $B^{\frac {1}{2}}$ obere Dreiecksmatrix

In jedem Fall ist $det(B^{\frac {1}{2}})={\sqrt {detB}}$ und (+).

Unabhängige Zufallsvariablen

Definition

a) Die auf $(\Omega ,{\mathcal {S}},P)$ definierten Zufallsvariablen $X_{1},...,X_{n}$ heißen unabhängig, falls für alle $B_{1},...,B_{n}\in {\mathcal {B}}^{1}$ gilt:

P(X_{1}\in B_{1},...,X_{n}\in B_{n})=P(X_{1}\in B_{1})\cdot ...\cdot P(X_{n}\in B_{n})

b) Abzählbar viele Zufallsvariablen $X_{1},X_{2},...$ heißen unabhängig, wenn je endlich viele $X_{i_{1}},...,X_{i_{n}}$ unabhängig sind.

Satz

Die auf $(\Omega ,{\mathcal {S}},P)$ definierten Zufallsvariablen $X_{1},...,X_{n}$ sind unabhängig genau dann, wenn

P_{(X_{1},...,X_{n})}=P_{X_{1}}\times ...\times P_{X_{n}}.

Beweis

Es gelte $P_{(X_{1},...,X_{n})}=P_{X_{1}}\times ...\times P_{X_{n}}$ :

Seien $B_{1},..,B_{n}\in {\mathcal {B}}^{1}$ , dann gilt:

P(X_{1}\in B_{1},...,X_{n}\in B_{n})=P_{(X_{1},...,X_{n})}(B_{1}\times ...\times B_{n})

=P_{X_{1}}\times ...\times P_{X_{n}}(B_{1}\times ...\times B_{n})=P_{X_{1}}(B_{1})\cdot ...\cdot P_{X_{n}}(B_{n})

=P(X_{1}\in B_{1})\cdot ...\cdot P(X_{n}\in B_{n})

Es gelte $X_{1},...,X_{n}$ unabhängig:

P_{(X_{1},...,X_{n})}(B_{1}\times ...\times B_{n})=P(X_{1}\subset B_{1})\cdot ...\cdot P(X_{n}\subset B_{n})

=P(X_{1}\in B_{1})\cdot ...\cdot P(X_{n}\in B_{n})=P_{X_{1}}(B_{1})\cdot ...\cdot P_{X_{n}}(B_{n})

Bemerkung

Da die $\sigma$ -Algebra ${\mathcal {B}}^{n}$ von dem System der Intervalle $(a,b]=\otimes _{1}^{n}(a_{i},b_{i}]$ erzeugt werden, genügt es, statt a) der Definition für alle $a,b\in \mathbb {R} ^{n},a<b$ zu finden:

P(a_{1}\subset X_{1}\leq b_{1},...,a_{n}\subset X_{n}\leq b_{n})=P(a_{1}\subset X_{1}\leq b_{1})\cdot ...\cdot P(a_{n}\subset X_{n}\leq b_{n})

Auch Intervalltypen $[),[],()$ können anstelle von (] verwendet werden.

Satz

Die Zufallsvariablen $X_{1},...,X_{n}$ mögen die Dichten $f_{1},...,f_{n}$ besitzen.

Dann gilt:

X_{1},...,X_{n}

unabhängig

\Uparrow \Downarrow

(X_{1},...,X_{n})

hat Dichte

f(x_{1},...,x_{n})=f(x_{1})\cdot ...\cdot f(x_{n})

Beweis

" $\Downarrow$ " Sind $X_{1},...,X_{n}$ unabhängig, dann folgt:

P_{(x_{1},...,x_{n})}((a_{1},b_{1}]\times ...\times (a_{n},b_{n}])=P_{X_{1}}(a_{1},b_{1}]\cdot ...\cdot P_{X_{n}}(a_{n},b_{n}]

=\int _{a_{1}}^{b_{1}}f_{1}(x_{1})dx_{1}\cdot ...\cdot \int _{a_{n}}^{b_{n}}f_{n}(x_{n})dx_{n}

=\int _{a_{1}}^{b_{1}}...\int _{a_{n}}^{b_{n}}f_{1}(x_{1})\cdot ...\cdot f_{n}(x_{n})dx_{1}\cdot ...\cdot dx_{n}

\Rightarrow (X_{1},...,X_{n})

hat Dichte

f(x_{1},...,x_{n}),(x_{1},...,x_{n})\in \mathbb {R} ^{n}

.

" $\Uparrow$ " Analog.

Beispiel

$X=(X_{1},...,X_{n})$ ist ${\mathcal {N}}(0,I_{k})$ -verteilt genau dann, wenn die $X_{1},...,X_{n}$ unabhängig und ${\mathcal {N}}(0,1)$ -verteilt sind.

Beweis

Sind $X_{1},...,X_{n}$ unabhängig mit den Dichten $f_{X_{i}}(x)=f_{i}(x)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}},x\in \mathbb {R}$ so hat $(X_{1},...,X_{n})$ gemäß des Satzes die Dichte

f(x_{1},...,x_{n})=\Pi _{i=1}^{n}f_{i}(x_{i})={\frac {1}{{\sqrt {2\pi }}^{2}}}e^{-{\frac {1}{2}}(x_{1}^{2}+...+x_{n}^{2})}={\frac {1}{{\sqrt {2\pi }}^{n}}}e^{-{\frac {1}{2}}(x^{T}\cdot x)}

mit $x=(x_{1},...,x_{n})$ . Umgekehrt folgt: $X$ hat die Dichte

f(x_{1},...,x_{n})={\frac {1}{{\sqrt {2\pi }}n}}e^{-{\frac {1}{2}}(x^{T}\cdot x)}=\Pi _{i=1}^{n}{\frac {1}{{\sqrt {2\pi }}^{n}}}e^{-{\frac {1}{2}}(x_{i}^{2})}

Man stellt fest, durch Integration $\int _{-\infty }^{\infty }$ über die Komponenten $x_{1},...,x_{i-1},x_{i+1},...,x_{n}$ , dass $f_{i}(x_{i})$ die Dichte von $X_{i}$ sein muss, so dass die Unabhängigkeit und ${\mathcal {N}}(0,1)$ -Verteilung der $X_{i}$ folgt.

Faltungsformel

Für unabhängige $X_{1},X_{2}$ gilt:

P_{X_{1}+X_{2}}(\lbrace x_{1}\rbrace )=\sum _{k}P_{X_{1}}(\lbrace x_{1}\rbrace )\cdot P_{X_{2}}(\lbrace x-x_{1}\rbrace )

Satz

Sind $X_{1},X_{2}$ unabhängige Zufallsvariabeln mit Dichten $f_{1},f_{2}$ , dann besitzt die Zufallsvariable $X_{1}+X_{2}$ die Dichte

f(x)=\int _{-\infty }^{\infty }f_{1}(x_{1})f_{2}(x-x_{1})dx.

Beweis (1)

Für die Verteilungsfunktion $F(y):P(X_{1}+X_{2}\leq y)$ weisen wir $F(y)=\int _{-\infty }^{y}f(x)dx$ nach. Es ist

P(X_{1}+X_{2}\leq y)=P_{(X_{1},X_{2})}(\lbrace (x_{1},x_{2}):x_{1}+x_{2}\leq y\rbrace )

=\int _{\lbrace (x_{1},x_{2}):x_{1}+x_{2}\leq y\rbrace }f_{1}(x_{1})\cdot f_{2}(x_{2})dx_{2}dx_{1}

=\int _{-\infty }^{\infty }\int _{-\infty }^{y-x_{1}}f_{1}(x_{1})\cdot f_{2}(x_{2})dx_{2}dx_{1}

Beweis (2)

=\int _{-\infty }^{\infty }\int _{-\infty }^{y}f_{1}(x_{1})\cdot f_{2}(x_{2}-x_{1})dx_{2}dx_{1}

=\int _{-\infty }^{y}\int _{-\infty }^{\infty }f_{1}(x_{1})\cdot f_{2}(x_{2}-x)dx_{1}dx_{2}

=\int _{-\infty }^{y}\int _{-\infty }^{\infty }f_{1}(x_{1})\cdot f_{2}(x-x_{1})dx_{1}dx_{2}

mit der Dichte $p(x)=\int _{-\infty }^{\infty }f_{1}(x_{1})\cdot f_{2}(x-x_{1})dx_{1}.$

Definition

Sind $X_{1},...,X_{n}$ unabhängige Zufallsvariablen, so heißt die Wahrscheinlichkeitsverteilung

P_{X_{1}+...+X_{n}}\equiv P_{X_{1}}*...*P_{X_{n}}

Faltung von $P_{X_{1}+...+X_{n}}$ (mit " $*$ " ist Faltungssymbol).

Unabhängige Wartezeiten (Beispiel) (1)

Sei $S_{n}$ die Wartezeit zwischen dem $n-1$ -ten und $n$ -ten Ereignis. Die Zufallsvariable $T_{n}=S_{1}+...+S_{n}$ stellt die Wartezeit des $n$ -ten Ereignisses dar. Unter den Voraussetzungen

1. Die Zufallsvariablen $S_{1},S_{2},...$ sind unabhängig

2. Jedes $S_{i}$ ist exponentialverteilt mit dem Paramter $\lambda$ (" $\epsilon (\lambda )$ -verteilt")

wollen wir die Dichte der Zufallsvariable $T_{n}$ berechnen. Es gilt:

f_{n}(x)={\frac {\lambda ^{n}\cdot x^{n-1}}{(n-1)!}}\cdot e^{-\lambda x},x\geq 0

(

f_{n}(x)=0

falls

x<0

)

Unabhängige Wartezeiten (Beispiel) (2)

Die Wahrscheinlichkeitsverteilung mit der Dichte $f_{n}$ heißt Gammaverteilung mit Parametern $n$ und $\lambda$ , kurz $\Gamma (n,\lambda )$ ( $I_{n}$ heißt dann $\Gamma (n,\lambda )$ -verteilt).

\Gamma (n,\lambda )=\epsilon (\lambda )*...*\epsilon (\lambda )

(n-mal gefaltet)

Zerlegt man einen Satz von Zufallsvariablen in disjunkte Gruppen und setzt auf die Gruppen Funktionen an, so erhalten wir unabhängige Zufallsvariablen.

Satz

$X_{1},...,X_{n}$ seien unabhängige Zufallsvariablen, für $m\leq n$ sei $\lbrace 1,...,n\rbrace =I_{1}\cup ...\cup I_{m}$ eine Zerlegung der Indexmenge und $\phi _{j}$ Zufallsvariable auf $(\mathbb {R} ^{k_{j}},{\mathcal {b}}^{k_{j}})$ , $k_{j}=|I_{j}|$ , $j=1,...,m$ $(\sum _{j=1}^{m}k_{j}=n)$ . Bezeichnet $Y_{j}$ den $k_{j}$ -dimensionalen Zufallsvektor $(X_{i},i\in I)$ , dann sind

\phi _{1}\cdot Y_{1},...,\phi _{m}\cdot Y_{m}

unabhängige Zufallsvariablen.

Beweis

Ohne Einschränkung sei

I_{1}=\lbrace 1,...,k_{1}\rbrace ,I_{2}=\lbrace k_{1}+1,...,k_{1}+k_{2}\rbrace ,...

Teil 1

Zunächst zeigen wir, dass die $m$ Zufallsvektoren $Y_{1},...,Y_{m}$ unabhängig sind, im Sinne von

(*)

P_{(Y_{1},...,Y_{m})}(C_{1}\times ...\times C_{m})=P_{Y_{1}}(C_{1})\cdot ...\cdot P_{Y_{m}}(C_{m})

für alle $C_{j}\in {\mathcal {B}}^{k_{j}},j=1,...,m$ .

Für die speziellen $C_{j}$ der Form $C_{j}=B_{1}^{j}\times ...\times B_{k}^{j},B_{l}^{j}\in {\mathcal {B}}^{1}$ gilt wegen $(Y_{1},...,Y_{m})=(X_{1},...,X_{n}),(C_{1},...,C_{m})=(B_{1}^{j},...,B_{k_{m}}^{j})$ :

P_{(Y_{1},...,Y_{m})}(C_{1}\times ...\times C_{m})=P_{(X_{1},...,X_{n})}(B_{1}^{1}\times ...\times B_{k_{m}}^{m})

=P_{X_{1}}(B_{1}^{1})\cdot ...\cdot P_{X_{n}}(B_{k_{m}}^{m})

Teil 2

=\otimes _{i\in I_{1}}P_{X_{i}}(B_{1}^{1}\times ...\times B_{k_{1}}^{1})\cdot ...\cdot \otimes _{i\in I_{m}}P_{X_{i}}(B_{1}^{m}\times ...\times B_{k_{m}}^{m})

=P_{Y_{1}}(C_{1})\cdot ...\cdot P_{Y_{m}}(C_{m})

Nach dem Fortsetzungssatz gilt dann (*) auch für alle $C_{j}\in {\mathcal {B}}^{k_{j}}$ .

Nun wird die Unabhängigkeit der $\phi _{1}\circ Y_{1},...,\phi _{m}\circ Y_{m}$ gezeigt. Es gilt:

P_{\phi _{1}\circ Y_{1},...,\phi _{m}\circ Y_{m})}(B_{1}\times ...\times B_{m})=...=P_{\phi _{1}\circ Y_{1}}(B_{1})\cdot ...\cdot P_{\phi _{m}\circ Y_{m}}(B_{m})

Momente von Zufallsvariablen

Wir führen den Begriff des Erwartungswert $E(X)$ einer Zufallsvariable $X$ ein, indem wir uns a den entsprechenden Begriff für den diskreten Fall durch eine Approximation von $X$ (durch eine Folge diskreter Zufallsvariablen $X_{n}$ ) anhängen.

Definition (1)

Für eine beliebige Zufallsvariable $X$ auf $(\Omega ,{\mathcal {S}})$ definiert man jedes $n\in \mathbb {N}$ die Zufallsvariable ( $n$ -te Approximierte):

X_{n}(w)=\sum _{i=-\infty }^{\infty }{\frac {k}{n}}1_{A_{k,n}}(w)

A_{k,n}=\lbrace w:{\frac {k}{n}}\leq X(w)<{\frac {k+1}{n}}\rbrace

d.h.

\left\{{\begin{array}{ll}X_{n}(w){\frac {k}{n}},&w\in A_{k,n}\\0,&sonst\end{array}}\right.

Definition (2)

Es ist $A_{k,n}\in {\mathcal {S}}$ , so dass $X_{n}$ eine Zufallsvariable ist, und zwar mit höchstens abzählbar vielen Werten ( $\pm {\frac {k}{n}},k\in \mathbb {Z}$ ). Gemäß der Definition für den Erwartungswert diskreter Zufallsvariablen setzen wir für die diskrete Zufallsvariable $X_{n}$ :

E(X_{n})=\sum _{i=-\infty }^{\infty }P(A_{k,n})

(mit $P(A_{k,n})=P_{X_{n}}\lbrace {\frac {k}{n}}\rbrace$ ), sofern

\sum _{i=-\infty }^{\infty }{\frac {|k|}{n}}P(A_{k,n})\equiv E(|X_{n}|)<\infty .

Eigenschaften von X_n, E(X_n)

a) $X_{n}\leq X\leq X_{n}+{\frac {1}{n}}$ , insbesondere $|X-X_{n}|\leq {\frac {1}{n}}$

b) $|X_{n}-X_{m}|\leq {\frac {1}{n}}+{\frac {1}{m}}$ , denn $|X_{n}-X_{m}\leq |X_{n}-X|+|X-X_{m}|$ und a)

c) $E|X_{n}-X_{m}|\leq {\frac {1}{n}}+{\frac {1}{m}}$ , aus b) und Eigenschaften von $E$

d) Existiert $E(X_{n})$ für $n\in \mathbb {N}$ , so existiert auch $E(X_{m})$ für alle $m\geq n$ , denn

E(X_{m})\leq E|X_{m}-X_{n}|+E(X_{m})<\infty

e) Existiert $E(X_{n})$ für (mindestens) ein $n\in \mathbb {N}$ , so bildet $E(X_{n}),n\geq n_{0}$ eine Cauchyfolge, denn

|E(X_{n})-E(X_{m})|=|E(X_{n}-X_{m})|\leq E|X_{n}-X_{m}|={\frac {1}{n}}+{\frac {1}{m}}\to 0,n,m\to \infty

Definition

Falls für (mindestens) ein $n\in \mathbb {N}$ der Erwartungswert $E(X_{n})$ der $n$ -ten Approximation für $X$ existiert, so setzt man $E(X)=lim_{n\to \infty }E(X_{n})$ (Existenz nach e) gesichert) und sagt: $E(X)$ existiert oder $X$ besitzt einen Erwartungswert. Man schreibt auch: $E(X)=\int _{a}X(w)P(dw)$ .

Bemerkung

Dieses " $P$ -Integral von $X$ " ist von Typ "Lebesgue-Stieltjes" (Intervalleinteilung auf der $y$ -Achse), im Unterschied zum Riemann-Integral (Einteilung auf der $x$ -Achse).

Eigenschaften von E(X)

a) $E(X)$ existiert genau dann, wenn $E|X|$ existiert (d.h. $E|X|<\infty$ ).

b) Ist $X(\Omega )$ abzählbar, so ist $E(X)=\sum _{x\in X(\Omega )}x\cdot P_{X}\lbrace w\rbrace$ , falls die Reihe absolut kovergiert.

Beweis (1)

a) Mehrfache Anwendung der Eigenschaften von $E(X_{n})$ a) liefert $|X_{n}|\leq |X|+|X-X_{n}|\leq |X|+{\frac {1}{n}}\leq |X|_{n}+{\frac {2}{n}}$ und $|X|_{n}\leq ...\leq |X_{n}|+{\frac {1}{n}}$ , woraus a) folgt.

Beweis (2)

b) Setze $I_{k,n}=({\frac {k}{n}},{\frac {k+1}{n}}]$ . Wegen $P(X_{n}={\frac {k}{n}})=\sum _{x\in I_{k,n}}P(X=x)$ ist

(*)

\left\{{\begin{array}{ll}E(X_{n})=\sum _{k=-\infty }^{\infty }{\frac {k}{n}}\sum _{x\in I_{k,n}}P(X=x)\\\leq \sum _{k=-\infty }^{\infty }\sum _{x\in I_{k,n}}xP(X=x)\\=\sum _{x\in X(\Omega )}xP(X=x)\\\leq \sum _{k=-\infty }^{\infty }{\frac {k+1}{n}}\sum _{x\in T_{k,n}}P(X=x)=E(X_{n})+{\frac {1}{n}}\end{array}}\right.

Falls die Reihe $\sum xP(X=x)$ absolut konvergiert, so wegen $E(X_{n})\leq \sum |x|P(X=x)+{\frac {1}{n}}<\infty$ (ähnliche Abschätzung wie (*)) auch die Reihe $E(X_{n})$ , so dass $lim_{n\to \infty }$ in (*) die Behauptung liefert.

Im speziellen Fall, dass $X$ eine Dichte besitzt, berechnet sich $E(X)$ wie folgt.

Satz

Besitzt die Zufallsvariable $X$ eine Dichte $f(x),x\in \mathbb {R}$ , so ist

E(X)=\int _{-\infty }^{\infty }xf(x)dx,

sofern $\int _{-\infty }^{\infty }|x|f(x)dx<\infty .$

Beweis

Wegen $P(X_{n}={\frac {k}{n}})=P({\frac {k}{n}}\leq X\leq {\frac {k+1}{n}})=\int _{\frac {k}{n}}^{\frac {k+1}{n}}f(x)dx$ ist:

(*)

E(X_{n})=\sum _{k=-\infty }^{\infty }{\frac {k}{n}}\int _{\frac {k}{n}}^{\frac {k+1}{n}}f(x)dx\leq \sum _{k=-\infty }^{\infty }xf(x)dx

=\int _{-\infty }^{\infty }xf(x)dx\leq \sum _{k=-\infty }^{\infty }{\frac {k+1}{n}}\int _{\frac {k}{n}}^{\frac {k+1}{n}}xf(x)dx=E(X_{n})+{\frac {1}{n}}

(Ähnliche Überlegung zur absoluten Konvergenz $E(X_{n})lim_{n\to \infty }$ in (*) liefert die Behauptung.

Allgemeiner gilt der folgende Satz ( $k$ -dimensionaler Zufallsvektor $X$ , Komposition $\phi \circ X$ ).

Satz

Besitzt ein $k$ -dimensionaler Zufallsvektor $X$ die Dichte $f(x),x\in \mathbb {R}$ , und ist $\phi$ eine (messbare) Funktion von $\mathbb {R} ^{k}\to \mathbb {R}$ , gilt:

E(\phi \circ X)=\int _{\mathbb {R} ^{k}}\phi (x)f(x)d^{k}x,

sofern $\int _{\mathbb {R} ^{k}}|\phi |fd^{k}x<\infty .$

Beweis

Gemäß dem Satz über Verkettung von Zufallsvariablen ist $\phi \circ X$ eine Zufallsvariable. Ähnlich wie oben gilt:

E(\phi \circ X)_{n}=...\leq ...=\int _{\mathbb {R} ^{k}}\phi (x)f(x)d^{k}x\leq ...=E(\phi \circ X)_{n}+{\frac {1}{n}}

Wie bei diskreten Zufallsvariablen haben wir auch hier die Monotonie und die Linearität des Erwartungswertes.

Satz

Sind $X$ und $Y$ Zufallsvariablen mit Erwartungswerten $E(X)$ und $E(Y)$ , so gilt:

a) $E(aX+bY)$ existiert und $E(aX+bY)=aE(X)+bE(Y)$ für alle $a,b\in \mathbb {R}$

b) $E(X)\leq E(Y)$ , falls $X\leq Y$ .

c) $E(1)=1$

Beweis

Folgt aus den entsprechenden Eigenschaften für diskrete Zufallsvariablen. Für die Existenz des Erwartungswertes ist das sogenannte Majorantenkriterium nützlich.

Satz

Sind $X,Y$ Zufallsvariablen mit $|X|\leq Y$ und $E(Y)$ existiert (d.h. $E(Y)<\infty$ ), so existiert auch $E(X)$ (und es ist $E(X)\leq E(Y)$ nach b)).

Beweis

Für die approximierten Zufallsvariablen $|X|_{n}$ und $Y_{n}$ gilt $|X|_{n}\leq Y_{n}$ und deshalb:

E(|X|_{n})\leq E(Y_{n})<\infty

(Letzteres für $n\leq n_{0}$ nach Voraussetzung). Also existiert auch $E|X|$ und - nach den Eigenschaften von $E(X)$ , a) - auch $E(X)$ .

Satz

Existieren für unabhängige Zufallsvariablen $X$ und $Y$ die Erwartungswerte $E(X)$ und $E(Y)$ , so existiert auch der Erwartungswert für $X\cdot Y$ und es gilt

E(X\cdot Y)=E(X)\cdot E(Y).

Beweis

Man kann die Approximation $X_{n},Y_{n}$ in der Form $X_{n}=\phi (X),Y_{n}=\phi (Y)$ schreiben, mit einer geeigneten messbaren Funktion $\phi \equiv \phi _{n}$ . Somit sind dann auch $X_{n},Y_{n}$ unabhängige Zufallsvariablen und $X_{n}\cdot Y_{n}$ hat einen Erwartungswert und es gilt

E(X_{n}\cdot Y_{n})=E(X_{n})\cdot E(Y_{n}).

Wir haben die Ungleichung

|(X\cdot Y)_{n}-X_{n}\cdot Y_{n}|

\leq |(X\cdot Y)_{n}-|X\cdot Y|+|X\cdot Y|-|X_{n}\cdot Y|+|X_{n}\cdot Y|-X_{n}\cdot Y_{n}|

\leq {\frac {1}{n}}+{\frac {1}{n}}|Y|+{\frac {1}{n}}|X_{n}|\leq {\frac {1}{n}}(2+|X|+|Y|)\equiv {\frac {1}{n}}Z

Folgerung

$E(X\cdot Y)_{n}$ existiert, also auch $E(X\cdot Y)$
$E(X_{n}\cdot Y_{n})-E(X\cdot Y)_{n}\to ^{n\to \infty }0$ so dass (*) die Behauptung liefert.

Für das nun folgende ('höhere Momente') wird wiederholt folgende Ungleichung benutzt:

|a\pm b|^{m}\leq C_{m}(|a|^{m}+|b|^{m})

für alle $a,b\in \mathbb {R} ,m\in \mathbb {N}$ , mit $C_{m}=2^{m-1}$ .

Diese Ungleichung folgt aus der Jensenschen Ungleichung in der Form ( $r,m\in \mathbb {N} ,a_{i}>0$ ):

{\frac {1}{r^{m}}}(a_{1}+...+a_{r})^{m}\leq {\frac {1}{r}}(a_{1}^{m}+...+a_{r}^{m})

(im Beweis ist $r=2$ .)

Definition (1)

Sei $(\Omega ,{\mathcal {S}},P)$ ein Wahrscheinlichkeitsraum.

a) Für $m\in \mathbb {N}$ bezeichnet ${\mathcal {L}}_{m}\equiv {\mathcal {L}}_{m}(P)$ die Menge aller Zufallsvariablen auf $(\Omega ,{\mathcal {S}})$ mit $E|X|^{m}<\infty$ . Für $X\in {\mathcal {L}}_{m}$ heißt $E|X|^{m}$ das absolute $m$ -te Moment ( $E(X^{m})$ das $m$ -te).

b) Für $X\in {\mathcal {L}}_{m}$ führt man noch ein: das $m$ -te zentrierte Moment $E((X-EX)^{m})$ und das absolute $m$ -te zentrierte Moment $E(|X_{E}X|^{m})$ .

Definition (2)

c) Speziell für $X\in {\mathcal {L}}_{2}$ heißt $Var(X)=E(X_{E}X)^{2}$ Varianz von $X$ und $\sigma (X)={\sqrt {Var(X)}}$ Standardabweichung von $X$ . Wie bereits bei diskreten Zufallsvariablen gilt auch hier $Var(aX+b)=a^{2}Var(X)$ und $Var(X)=E(X^{2}-(EX)^{2})$ .

Ferner gilt:

$Var(X)=0$ genau dann, wenn $P(X=const)=1$ (' $X=const.$ , $P$ fast überall').
$EX^{2}=0$ genau dann, wenn $P(X=0)=1$ (' $X=0$ , $P$ fast überall')

Beispiel 1

$X$ gleichverteilt auf $[a,b]$ , $a<b$ . Dann ist $X^{*}={\frac {X-a}{b-a}}$ gleichverteilt auf $[0,1]$ und

EX^{*}=\int _{0}^{1}x\cdot 1\cdot dx={\frac {1}{2}}{\stackrel {X=a+(b-a)X^{*}}{\mapsto }}EX=a\cdot {\frac {1}{2}}(b-a)={\frac {1}{2}}(a+b)

E(X^{*})=\int _{0}^{1}x\cdot 1\cdot dx={\frac {1}{3}}

Var(X^{*})={\frac {1}{3}}+{\frac {1}{4}}={\frac {1}{12}},

also $Var(X)={\frac {1}{12}}(b-a)^{2}$ .

Beispiel 2

$X$ exponentialverteilt mit Parameter $\lambda >0$

EX=\int _{0}^{\infty }x\cdot \lambda \cdot e^{-\lambda x}\cdot dx{\stackrel {x=\lambda x}{=}}{\frac {1}{\lambda }}\int _{0}^{\infty }s\cdot e^{-x}\cdot ds={\frac {1}{\lambda }}

EX^{2}=\int _{0}^{\infty }x^{2}\cdot \lambda \cdot e^{-\lambda x}{\stackrel {s=\lambda x}{=}}{\frac {1}{\lambda ^{2}}}\int _{0}^{\infty }s^{2}\cdot e^{-s}\cdot ds={\frac {2}{\lambda ^{2}}}

Var(X)={\frac {2}{\lambda ^{2}}}-{\frac {1}{\lambda ^{2}}}={\frac {1}{\lambda ^{2}}}

Beispiel 3 (1)

Normalverteilung $N(\mu ,\sigma ^{2})$

Ist $X$ $N(\mu ,\sigma )$ -verteilt, dann ist $X^{*}={\frac {X-\mu }{\sigma }}$ $N(0,1)$ -verteilt. Es gilt:

EX^{*}=\int _{-\infty }^{\infty }|x>e^{-{\frac {1}{2}}x^{2}}dx=0

wegen $\phi (x)=\phi (-x)$ und wegen $\int _{\infty }^{\infty }|x>e^{\frac {1}{2x^{2}}}dx<\infty .$

Beispiel 3 (2)

Ferner:

Var(X^{*})=E(X^{*})^{2}=\int _{-\infty }^{\infty }x\cdot x\phi (x)dx=\int _{-\infty }^{\infty }\phi (x)dx=1

Es folgt für $X=\mu +\sigma X^{*}$ : $EX=\mu$ , $Var(X)=\sigma ^{2}.$

Die $N(\mu ,\sigma ^{2})$ -Verteilung kann also als Normalenverteilung mit Erwartungswert $\mu$ und Varianz $\sigma ^{2}$ charakterisiert werden.

Den Anschluss an die Lineare Algebra/Funktionalanalysis liefert der folgende Satz.

Satz

Seien $(\Omega ,{\mathcal {S}},P)$ und $m\in \mathbb {N}$ vorgegeben.

a) ${\mathcal {L}}_{m}$ ist ein linearer Raum.

b) ${\mathcal {L}}_{n}\subset {\mathcal {L}}_{m}$ für alle $n\geq m$ . D.h. aus $E|X|^{n}<\infty$ für ein $n\in \mathbb {N}$ folgt $E|X|^{m}<\infty$ für $m\leq n$ , insbesondere ist $E|X|<\infty$ .

Beweis

a) Majorantenkriterium und die Ungleichung des letzten Satzes liefern für $a,b\in \mathbb {R}$ :

|aX+bY|^{m}\leq C_{m}(|a|^{m}|X|^{m}+|b|^{m}|Y|^{m})

b) Sei $E|X|^{n}<\infty$ . Dann gilt für $m\leq n$ wegen $|X|^{m}\leq 1\cdot 1_{\lbrace |X|\leq 1\rbrace }+|X|1_{\lbrace |X|\geq 1\rbrace }\leq 1+|X|^{n}$ auch $E|X|^{m}<\infty$ .

Wichtig sind die folgenden stochastischen Ungleichungen.

Ungleichungen

Markov-Ungleichung:

Ist $X\in {\mathcal {L}}_{m}$ für ein $m\in \mathbb {N}$ , so gilt für jedes $\epsilon <0$ :

P(|X|\geq \epsilon )\leq {\frac {E|X|^{m}}{\epsilon ^{m}}}

Tschebyschoff-Ungleichung:

Insbesondere für $X\in {\mathcal {L}}_{2}$ :

P(|X-EX|\geq \epsilon )\leq {\frac {Var(X)}{\epsilon ^{2}}}

Beweis

Wiederholte Anwendung der Monotonieeigenschaften von $E$ :

E|X|^{m}\geq E(|X|^{m}1_{\lbrace |X|\geq 1\rbrace })\geq \epsilon ^{m}E(1_{\lbrace |X|\geq 1\rbrace })=\epsilon P(|X|\geq \epsilon )

setzt man in die Markov-Ungleichung speziell $X-EX$ statt $X$ ein, sowie $m=2$ , so erhält man die Tschebyschoff-Ungleichung.

Satz

Für Zufallsvariablen $X,Y\in {\mathcal {L}}_{2}$ gilt $X\cdot Y\in {\mathcal {L}}_{1}$ und $[E(X\cdot Y)]^{2}\leq E(X)^{2}\cdot E(Y)^{2}$ . Das '='-Zeichen gilt genau dann, wenn $aX+bY=0$ , $P$ fast überall für $a,b,a^{2}+b^{2}>0$ .

Bemerkungen

Im linearen Raum ${\mathcal {L}}_{2}$ können wir ein 'Fast-Skalarprodukt' einführen:

Für $X,Y\in {\mathcal {L}}_{1}$ setze $\langle X,Y\rangle =E(X,Y)$ . $\langle \cdot ,\cdot \rangle$ ist dann eine bilineare, symmetrische, positiv semidefinite ( $\langle X,X\rangle \geq 0$ ) Form. Aus $\langle X,X\rangle =0$ folgt aber nur $X=0$ fast überall (und nicht $X=0$ ) .

Definition

Sind $X,Y\in {\mathcal {L}}_{2}$ , dann heißen

a) $Cov(X,Y)=E((X-EX)\cdot (Y-EY))=E(X\cdot Y)-E(X)\cdot E(Y)$ die Kovarianz von $X$ und $Y$ .

b) $X,Y$ unkorreliert, falls $Cov(X,Y)=0$ .

c) $\rho (X,Y)={\frac {Cov(X,Y)}{\sigma (X)\sigma (Y)}}$ Korrelation (oder Korrelationskoeffizient) von $X$ und $Y$ , sofern $\sigma (X),\sigma (Y)>0$ .

Die Folgerungen für diskrete Zufallsvariablen bezüglich der Kovarianz gelten weiterhin sowie die Eigenschaften von der Varianz und der Kovarianz. Im Hinblick auf die obige Bemerkung gilt: $X,Y$ unkorreliert, falls $X-EX\perp Y-EY$ (bezüglich $\langle \cdot ,\cdot \rangle$ ).

Beispiel

Momente der $k$ -dimensionalen Normalverteilung.

Ist $X=(X_{1},...,X_{k})$ $N_{k}(\mu ,\Sigma )$ -verteilt, $\mu =(\mu _{1},...,\mu _{k})^{T}\in \mathbb {R} ^{k},\Sigma =(\sigma _{i,j})$ symmetrische, positiv definite $k\times k$ -Matrix.

Behauptung:

EX_{i}=\mu _{i},Cov(X_{i},X_{j})=\sigma _{i,j}

Bemerkung

Die Parameter $\mu ,\Sigma$ der $N_{k}(\mu ,\Sigma )$ -Verteilung bilden also den Erwartungswert-Vektor bzw. die Matrix der Kovarianz (Cov-Matrix) des $N_{k}(\mu ,\Sigma )$ -verteilten Zufallvektors $X$ .

Charakteristische Funktion

Für diskrete Zufallsvariablen $X$ mit Werten $\mathbb {Z} _{+}$ erwies sich die erzeugende Funktion

G(s)=Es^{X}=\sum _{k=0}^{\infty }s^{k}P_{X}\lbrace k\rbrace

als nützlich, und zwar bei der Berechnung von Momenten, Faltungen und Grenzverteilungen.

Eine vergleichbare Funktion hat die charakteristische Funktion in der allgemeinen Wahrscheinlichkeitstheorie, in der $X$ eine beliebige Zufallsvariable ist. Anstelle des Erwartungswertes $s^{X}$ (der nicht notwendigerweise existiert) bildet man den Erwartungswert der komplexwertigen Variablen " $e^{iX}$ ".

Erinnerung: Komplexe Zahlen

Für eine komplexe Zahl $z=a+bi,a=Re(z)\in \mathbb {R} ,b=Im(z)\in \mathbb {R}$ setze man $|z|={\sqrt {a^{2}+b^{2}}}={\sqrt {z\cdot {\bar {z}}}}$ . Es ist $z=r\cdot e^{i\phi }$ mit $r=|z|,e^{i\phi }=cos(\phi )+i\sin(\phi )$ . Es gilt $|z\cdot w|=|z|\cdot |w|$ .

Definition

Sei $(\Omega ,{\mathcal {S}},P)$ ein Wahrscheinlichkeitsraum.

a) Sind $z_{1},z_{2}$ Zufallsvariablen auf $(\Omega ,{\mathcal {S}})$ , ( $z_{i}:\Omega \to \mathbb {R}$ ) so bildet $z=z_{1}+iz_{2}$ eine komplexwertige Zufallsgröße auf $(\Omega ,{\mathcal {S}})$ , ( $z:\Omega \to \mathbb {C}$ ).

b) Existieren $E(z_{1}),E(z_{2})$ , so heißt die komplexe Zahl $E(z):=E(z_{1})+iE(z_{2})$ Erwartungswert von $z$ .

Hilfssatz

a) Sind $z,{\bar {z}}$ komplexe Zufallsgrößen und existieren $E(z),E({\bar {z}})$ , so gilt:

E(z+{\bar {z}})=E(z)+E({\bar {z}})

E(v\cdot z)=v\cdot E(z),v\in \mathbb {C}

b) $|E(z)|\leq E(|z|)<\infty$ .

Charakteristische Funktion (Definition)

Sei $X$ eine Zufallsvariable auf $(\Omega ,{\mathcal {S}})$ , so heißt die komplexwertige Funktion $\phi _{X}:\mathbb {R} \to \mathbb {C}$ :

\phi _{X}(t)\equiv \phi (t)=e^{itx}=E(cos(tx))+iE(sin(tx))

charakteristische Funktion von $X$ .

Bemerkungen (1)

Aus $e^{itx}=cos(tx)+isin(tx)$ folgt wegen $|cos(tx)|\leq 1$ , $|sin(tx)|\leq 1$ die Existenz von $E(cos(tx))$ und $E(sin(tx))$ , also von $(e^{ixt})$ .

Beispiele für charakteristische Funktionen:
- $\phi _{X}(t)=1$
- $\phi _{X}(t)=cos(t)$
- $\phi _{X}(t)=e^{-{\frac {t^{2}}{2}}}$
- $\phi _{X}(t)=e^{e^{it}-1}$
- $\phi _{X}(t)={\frac {1}{1+it}}$
- $\phi _{X}(t)={\frac {1}{it}}(e^{it}-1),(\phi _{X}(0)=1$
- $\phi _{X}(t)=e^{-|t|}$
- $\phi _{X}(t)=(1-|t|)1_{[-1,1]}(t)$

Bemerkungen (2)

Keine charakteristischen Funktionen sind:
- $\phi (t)=sin(t)$
- $\phi (t)=1-t^{2}$
- $\phi (t)=1_{[-1,1]}(t)$
- $\phi (t)=e^{-|t|^{2}}$

Wegen $|e^{itx}|=1$ gilt $|\phi (t)|=|E(e^{itx})|\leq E(|e^{ixt}|)=E(1)=1$ , $\phi (0)=E(1)=1$ .
$\phi _{X}$ ist gleichmäßig stetig. (ohne Beweis)
$\phi _{aX+b}(t)=E(e^{it(aX+b)})=e^{itb}\cdot E(e^{itaX})=itb\cdot \phi _{X}(ta),a,b\in \mathbb {R} .$

Bemerkungen (3)

Ist $X$ eine Zufallsvariable mit Werten in $\mathbb {Z} _{+}$ , so ist

\phi _{X}(t)=E(e^{itx})=E(cos(tx))+iE(sin(tx))

=\sum _{k=0}^{\infty }cos(tk)\cdot P(X=k)+i\sum _{k=0}^{\infty }sin(tk)\cdot P(X=k)

=\sum _{k=0}^{\infty }(e^{it})^{k}\cdot P(\lbrace k\rbrace )

(vgl. mit $g_{x}(s)=E(s^{x})=\sum _{k=k}^{\infty }sk\cdot P_{x}(\lbrace k\rbrace ),s\in [0,1]$ ) Also (!) lautet die charakteristische Gleichung von $X$ :

$X$ $B(n,p)$ -verteilt: $\phi _{X}(t)=(1-p+pe^{it})^{n},t\in \mathbb {R}$

$X$ $P(\lambda )$ -verteilt: $\phi _{X}(t)=e^{\lambda e^{it}-1},t\in \mathbb {R}$

Beispiel 1

$X$ exponentialverteilt mit Paramter $\lambda >0$ :

\phi _{X}(t)={\frac {\lambda }{\lambda -it}},t\in \mathbb {R}

Beispiel 2 (1)

$X$ sei $N(0,1)$ -verteilt:

\phi _{X}(t)=E(e^{itx})=E(cos(tx))+iE(sin(tx))

=\int _{-\infty }^{\infty }(cos(tx)){\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}dx+i\int _{-\infty }^{\infty }(sin(tx)){\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}dx

\Rightarrow \phi '_{X}(t)=\int _{-\infty }^{\infty }(sin(tx)){\frac {1}{\sqrt {2\pi }}}(-x)e^{-{\frac {x^{2}}{2}}}dx

=[(sin(tx)){\frac {1}{\sqrt {2\pi }}}(-x)e^{-{\frac {x^{2}}{2}}}]_{-\infty }^{\infty }

Beispiel 2 (2)

=\int _{-\infty }^{\infty }t\cdot cos(tx){\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}dx

=-t\cdot \phi _{X}(t){\frac {d}{dt}}(\phi _{X}(t)\cdot e^{-{\frac {x^{2}}{2}}})

=\phi '_{X}(t)\cdot e^{-{\frac {x^{2}}{2}}}+\phi _{X}(t)\cdot t\cdot e^{-{\frac {x^{2}}{2}}}

=e^{-{\frac {x^{2}}{2}}}[\phi '_{X}(t)+t\phi _{X}(t)]=0

Beispiel 2 (3)

\Rightarrow \phi _{X}(t)\cdot e^{-{\frac {x^{2}}{2}}}=c=const.

\Rightarrow \left\{{\begin{array}{ll}\phi _{X}(t)=c\cdot e^{-{\frac {x^{2}}{2}}}\\\phi _{X}(0)=1\Rightarrow c=1\end{array}}\right\}

\Rightarrow \phi _{X}(t)=e^{-{\frac {x^{2}}{2}}}

Beispiel 3

$X$ sei $N(0,1)$ -verteilt $\Rightarrow \phi _{X}(t)=?$

$X=\sigma \Gamma +\mu ,\Gamma$ $N(0,1)$ -verteilt.

\Rightarrow \phi _{X}(t)\cdot e^{it\mu }\cdot \phi _{Y}(\sigma t)=e^{it\mu }\cdot e^{-{\frac {1}{2}}\sigma ^{2}t^{2}}.

Eindeutigkeitssatz

Seien $X,Y$ Zufallsvariablen. Dann gilt:

\phi _{X}=\phi _{Y}\Leftrightarrow P_{X}=P_{Y}

Faltungssatz

Sind $X,Y$ unabhängige Zufallsvariablen, so gilt $\phi _{X+Y}=\phi _{X}+\phi _{y}$ .

Beweis

$\phi _{X+Y}=E(e^{it(x+y)})=E(e^{itx}\cdot e^{ity})=E(e^{itx})\cdot E(e^{ity})=\phi _{X}+\phi _{Y}$

Hilfssatz

Für den obigen Beweis wurde der folgende Hilfssatz genutzt.

Seien $X,Y$ unabhängige Zufallsvariablen, $f=f_{1}+f_{2}$ , $g=g_{1}+g_{2}$ komplexwertige Funktionen, so gilt, falls $E(f(x)),E(g(x))$ existieren:

E(f(x)\cdot g(y))=E(f(x))\cdot E((y))

Beispiel

Es gilt $N(\mu _{1},\sigma _{1}^{2})\times N(\mu _{2},\sigma _{2}^{2})=N(\mu _{1}+\mu _{2},\sigma _{1}^{2}+\sigma _{2}^{2})$ .

Beweis

Sei $X_{1}$ $N(\mu _{1},\sigma _{1}^{2})$ -verteilt und $X_{2}$ $N(\mu _{2},\sigma ^{2})$ -verteilt, mit $X_{1},X_{2}$ unabhängig.

\phi _{X_{1}+X_{2}}(t)=\phi _{X_{1}}\cdot \phi _{X_{2}}(t)=e^{it\mu _{1}}\cdot e^{{\frac {1}{2}}\sigma _{1}^{2}t^{2}}\cdot e^{it\mu _{2}}\cdot e^{-{\frac {1}{2}}\sigma _{2}^{2}t^{2}}

=e^{it(\mu _{1}+\mu _{2})}\cdot e^{-{\frac {1}{2}}(\sigma _{1}^{2}+\sigma _{2}^{2})t^{2}}

\Rightarrow {\text{Behauptung}}.

Satz (Berechnung von Momenten)

Für die Zufallsvariable $X$ existieren $E(X^{m})$ für ein $\in \mathbb {N}$ . Dann ist die charakteristische Funktion $\phi _{X}$ $m$ -mal stetig differenzierbar mit

\phi _{X}^{(m)}(0)=i^{m}E(X^{m})

(für $m$ gerade gilt auch die Umkehrung).

Siehe auch

Kurs:Stochastik