Kurs:Numerik I/Konvergenzraten

Einleitung - Konvergenzraten

Die Verfahren, die wir bisher im Zusammenhang mit der Lösung linearer Gleichungssysteme und Ausgleichsprobleme vorgestellt haben, bestimmen in endlich vielen Schritten eine Lösung, welche, wenn man exakt rechnen könnte, immer die exakte Lösung des Problems wäre. In der Praxis lassen sich aber viele mathematische Probleme nur mittels eines Iterationsverfahrens näherungsweise lösen.

Iterationsverfahren

d. h. mittels wiederholter Anwendung derselben Rechenvorschriften, wobei in der $k$ -ten Iteration („Wiederholung“), ausgehend von einer Näherung $x_{k}$ , eine neue und möglichst genauere Näherung $x_{k+1}$ für eine gesuchte Lösung des Problems berechnet wird. Für den Start eines solchen Verfahrens muss man folglich eine Startnäherung $x^{*}$ vorgeben.

Iterationsverfahren würden im allgemeinen, wenn sie nicht nach endlich vielen Schritten abgebrochen würden, eine unendliche Folge $(x_{k})$ von Iterierten generieren. Aufgabe des Numerikers ist es zu zeigen, dass jede konvergente Teilfolge oder die ganze vom Verfahren erzeugte Folge $(x_{k})$ für jeden Startpunkt aus einer gewissen Menge gegen eine (ja a priori unbekannte!) Lösung $x^{*}$ des gegebenen Problems konvergiert. In diesem Zusammenhang spricht man von globaler Konvergenz eines Verfahrens, wenn diese Konvergenz für jede Wahl des Startpunktes aus einer wohlbestimmten Menge (z. B. dem ganzen $\mathbb {R} ^{n}$ ) gegeben ist, und von lokaler Konvergenz, wenn dies nur für Startpunkte aus einer (im Allgemeinen nicht spezifizierbaren) Umgebung einer Lösung der Fall ist. In der Praxis wird ein Iterationsverfahren natürlich nach einer endlichen Anzahl von Iterationen gestoppt und zwar dann, wenn zum ersten Mal ein Abbruchkriterium erfüllt ist, welches ausreichende Genauigkeit der aktuellen Näherung im Hinblick auf eine Lösung des Problems sicherstellt. Die Angabe eines sinnvollen Abbruchkriteriums kann dabei durchaus ein schwieriges Unterfangen sein.

Für ein gegebenes Verfahren ist neben dem rechnerischen Aufwand, der pro Iteration zu leisten ist, naturgemäß von Interesse, wie schnell es, wenn es nicht abgebrochen würde, gegen eine gesuchte Lösung konvergieren würde und damit, ob im Schnitt nur wenige oder viele Iterationen durchlaufen werden müssen, bis ein gegebenes Abbruchkriterium erfüllt ist. Wir wollen daher als nächstes den Begriff der Konvergenzgeschwindigkeit eines Verfahrens genauer fassen.

Definition 5.1

Sei $\|\cdot \|$ eine Norm auf dem $\mathbb {R} ^{n}$ und $(x^{k})$ eine Folge in $\mathbb {R} ^{n}$ mit $\lim _{k\to \infty }x_{k}=x^{*}$ .

(i) Die Folge $(x^{k})$ konvergiert von (mindestens) der Ordnung $p>0$ (gegen $x^{*}\in \mathbb {R} ^{n}$ ), wenn mit einem $k_{0}\in \mathbb {N}$ und einem $C>0$

(5.1)

\left\|x_{k+1}-x^{*}\right\|\leq C\left\|x_{k}-x^{*}\right\|^{p},\quad k\geq k_{0}

gilt, wobei $C<1$ für $p=1$ sei. Im Fall $p=1$ spricht man auch von linearer und im Fall $p=2$ von quadratischer Konvergenz.

(ii) Die Folge $(x^{k})$ konvergiert superlinear (gegen $x^{*}\in \mathbb {R} ^{n}$ ), wenn $x^{k}\neq x^{*},k\geq k_{0}$ für ein $k_{0}\in \mathbb {N}$ gilt sowie

(5.2)

\lim _{k\to \infty }{\frac {\left\|x_{k+1}-x^{*}\right\|}{\|x_{k}-x^{*}\|}}=0.

Die drei wichtigsten Konvergenzraten bei Algorithmen sind lineare, superlineare und quadratische Konvergenz, so dass wir uns im Folgenden nur auf sie beziehen werden.

Die (praktisch irrelevante) Voraussetzung „ $x^{k}\neq x^{*},k\geq k_{0}$ für ein $k_{0}\in \mathbb {N}$ “ bei der Definition der superlinearen Konvergenz kann man vermeiden, indem man diese mit einer Folge $(\varepsilon _{k})$ von Zahlen $\varepsilon _{k}\geq 0$ mit $\lim _{k\to \infty }\varepsilon _{k}=0$ durch

(5.3)

\left\|x_{k+1}-x^{*}\right\|\leq \varepsilon _{k}\left\|x_{k}-x^{*}\right\|,\quad k\geq k_{1}

für ein $k_{1}\in \mathbb {N}$ definiert. Für $\lim _{k\to \infty }x_{k}=x^{*}$ kann man superlineare Konvergenz der Folge $(x^{k})$ auch durch die Beziehung

\left\|x_{k+1}-x^{*}\right\|=o\left(\left\|x_{k}-x^{*}\right\|\right)

ausdrücken und quadratische Konvergenz durch

\left\|x_{k+1}-x^{*}\right\|={\mathcal {O}}\left(\left\|x_{k}-x^{*}\right\|^{2}\right).

Beispiel 5.2

Die Folgen $(x_{k}),(y_{k})$ und $(z_{k})$ mit

x_{k}:=1+0.5^{k},\quad y_{k}:=1+k^{-k},\quad z_{k}:=1+0.5^{2^{k}}

konvergieren für $k\to \infty$ gegen $x^{*}=y^{*}=z^{*}:=1$ . Man errechnet

{\frac {|x_{k+1}-x^{*}|}{|x_{k}-x^{*}|}}=0.5,

{\frac {|y_{k+1}-y^{*}|}{|y_{k}-y^{*}|}}={\frac {k^{k}}{(k+1)^{k+1}}}={\frac {1}{k+1}}\left({\frac {1}{1+{\frac {1}{k}}}}\right)^{k}\to 0\quad (k\to \infty ),

{\frac {|z_{k+1}-z^{*}|}{|z_{k}-z^{*}|^{2}}}={\frac {0.5^{2^{k+1}}}{\left(0.5^{2^{k}}\right)^{2}}}=1.

Also konvergiert $(x_{k})$ linear, $(y_{k})$ superlinear und $(z_{k})$ quadratisch gegen 1. Die folgende Tabelle demonstriert, was die unterschiedlichen Konvergenzraten praktisch bedeuten.

{\begin{array}{c|c c c c c c}k&1&2&3&4&5&6\\\hline x_{k}&1.500\,000&1.250\,000&1.125\,000&1.062\,500&1.031\,250\,000&1.015\,625\,000\\y_{k}&2.000\,000&1.250\,000&1.037\,037&1.003\,906&1.000\,320\,000&1.000\,021\,434\\z_{k}&1.250\,000&1.062\,500&1.003\,906&1.000\,015&1.000\,000\,000&1.000\,000\,\ldots \end{array}}

Quadratische Konvergenz impliziert superlineare Konvergenz und diese wiederum lineare Konvergenz. Denn im Fall quadratischer Konvergenz hat man mit einem $C>0$ und einem $k_{0}\in \mathbb {N}$

\left\|x^{k+1}-x^{*}\right\|\leq \left(C\left\|x^{k}-x^{*}\right\|\right)\left\|x^{k}-x^{*}\right\|,\quad k\geq k_{0},

was wegen $\lim _{k\to \infty }x^{k}=x^{*}$ die Bedingung (5.3) impliziert. Ist andererseits (5.2) gegeben, dann existiert zu jedem $\varepsilon \in (0,1)$ ein $k_{\varepsilon }\in \mathbb {N}$ , so dass gilt:

(5.4)

\left\|x^{k+1}-x^{*}\right\|\leq \varepsilon \left\|x^{k}-x^{*}\right\|,\quad k\geq k_{\varepsilon }.

Letztere Beziehung drückt gerade die lineare Konvergenz aus.

Im Fall der superlinearen Konvergenz gilt ja (5.4), d. h. lineare Konvergenz mit einem $\varepsilon \in (0,1)$ , so dass man bei der Definition der linearen und superlinearen Konvergenz auf die Voraussetzung $\lim _{k\to \infty }x^{k}=x^{*}$ verzichten könnte. Denn die Ungleichung (5.1) impliziert im Fall der linearen Konvergenz

\left\|x^{k+1}-x^{*}\right\|\leq C\left\|x^{k}-x^{*}\right\|\leq C^{2}\left\|x^{k-1}-x^{*}\right\|\leq C^{k-k_{0}+1}\left\|x^{k_{0}}-x^{*}\right\|,\quad k\geq k_{0}

und damit wegen $C<1$ auch die Konvergenz $\lim _{k\to \infty }x^{k}=x^{*}$ . Bei der Definition einer Konvergenzordnung $p>1$ muss man aber, da dort nicht $C<1$ gefordert ist, die Konvergenz der Folge $(x^{k})$ explizit voraussetzen.

Man beachte, dass lineare Konvergenz mit einer Konstanten $C\approx 1$ sehr langsame Konvergenz bedeuten kann.

Beispiel 5.3

Für die gegen 1 konvergierende Folge $(x_{k})$ mit $x_{k}=1+0.99^{k},k\in \mathbb {N} _{0}$ gilt

|x_{k+1}-1|=0.99\cdot |x_{k}-1|=0.99^{k+1}|x_{0}-1|=0.99^{k+1}.

Die langsame Konvergenz sei mit der Berechnung einiger Folgenglieder gezeigt:

{\begin{array}{c|c c c}k&100&1000&2000\\\hline x_{k}&1.366\,032\,341&1.000\,043\,171&1.000\,000\,002\end{array}}

Man hofft also, dass die Konstante $C$ in der Praxis im Fall der linearen Konvergenz $\ll 1$ ist und im Fall der quadratischen Konvergenz nicht allzu groß wird. In letzterem Fall besagt die Ungleichung (5.1) für $C:=1$ , dass sich für einen Fehler $\left\|x^{*}-x^{k}\right\|<1$ die Anzahl der korrekten Stellen hinter dem Dezimalpunkt von $x^{k+1}$ bezüglich $x^{*}$ gegenüber der von $x^{k}$ ungefähr verdoppelt. Denn dann ist

\left\|x^{*}-x^{k+1}\right\|\leq \left\|x^{*}-x^{k}\right\|^{2},\quad k\geq k_{0},

so dass man bei einer Genauigkeit von $\ell$ Stellen hinter dem Dezimalpunkt für $x^{k}$ bezüglich der Norm $\|\cdot \|$ im $k$ -ten Schritt einen Fehler $\left\|x^{*}-x^{k}\right\|\leq 5\cdot 10^{-(\ell +1)}$ hat und somit im $(k+1)$ -ten Schritt einen Fehler

\left\|x^{*}-x^{k}\right\|\leq 25\cdot 10^{-2(\ell +1)}=2.5\cdot 10^{-(2\ell +1)}.

Quadratische Konvergenz ist demnach eine für die Praxis sehr gute Eigenschaft eines Verfahrens und meist die schnellste Konvergenz, die man mit vernünftigen Mitteln erreichen kann.

Es sei jedoch darauf hingewiesen, dass eine gute Konvergenzrate eines Verfahrens alleine nicht dessen Effizienz garantiert. Von einem gegebenen Verfahren ausgehend, kann man ja immer ein noch schnelleres Verfahren erzeugen, indem man mehrere Iterationen des ersten Verfahrens zu einer einzigen zusammenfasst. Neben der Konvergenzgeschwindigkeit eines Verfahrens hat man also bei der Beurteilung eines Verfahrens den numerischen Aufwand pro Iteration und natürlich auch seine Stabilität zu berücksichtigen.

Wir bemerken ferner, dass die Eigenschaften der superlinearen und quadratischen Konvergenz einer Folge $(x^{k})$ gegen einen Punkt $x^{*}$ im $\mathbb {R} ^{n}$ aufgrund der Äquivalenz aller Normen im $\mathbb {R} ^{n}$ unabhängig von der gewählten Norm sind. Denn die Äquivalenz zweier Normen $\|\cdot \|_{a}$ und $\|\cdot \|_{b}$ auf dem $\mathbb {R} ^{n}$ besagt, dass mit zwei Konstanten $\alpha \geq 0$ und $\beta \geq 0$

\alpha \|x\|_{b}\leq \|x\|_{a}\leq \beta \|x\|_{b},\quad x\in \mathbb {R} ^{n}

gilt, so dass z. B. die Beziehung in (5.3) bezogen auf die Norm $\|\cdot \|_{a}$

\alpha \left\|x^{k+1}-x^{*}\right\|_{b}\leq \left\|x^{k+1}-x^{*}\right\|_{a}\leq \varepsilon _{k}\left\|x^{k}-x^{*}\right\|_{a}\leq \beta \varepsilon _{k}\left\|x^{k}-x^{*}\right\|_{b},\quad k\geq k_{1}

impliziert und damit für die Nullfolge $\{\eta _{k}\}$ mit $\eta _{k}:=(\beta /\alpha )\varepsilon _{k}$ auch

\left\|x^{k+1}-x^{*}\right\|_{b}\leq \eta _{k}\left\|x^{k}-x^{*}\right\|_{b}.

Ähnlich garantiert quadratische Konvergenz bezüglich der Norm $\|\cdot \|_{a}$ auch die quadratische Konvergenz

\left\|x^{k+1}-x^{*}\right\|_{b}\leq C_{b}\left\|x^{k}-x^{*}\right\|_{b}^{2}

bezüglich einer Norm $\|\cdot \|_{b}$ , wobei die Konstante $C_{b}$ von der Norm $\|\cdot \|_{a}$ abhängt. Dagegen muss lineare Konvergenz einer Folge im $\mathbb {R} ^{n}$ bezüglich einer Norm nicht notwendig die lineare Konvergenz hinsichtlich einer anderen Norm auf dem $\mathbb {R} ^{n}$ zur Folge haben. Zwar gilt beispielsweise für jede linear bezüglich $\|\cdot \|_{a}$ konvergente Folge $(x^{k})$ auch

\left\|x^{k+1}-x^{*}\right\|_{b}\leq C_{b}\left\|x^{k}-x^{*}\right\|_{b}

mit einer Konstanten $C_{b}$ für eine Norm $\|\cdot \|_{b}$ , jedoch nicht notwendig $C_{b}<1$ . Sprechen wir also von linearer Konvergenz, so müssen wir klarstellen, bezüglich welcher Norm wir dies tun. Wenn nichts Anderes gesagt wird, beziehen wir uns immer auf Konvergenz im Sinne der Euklidischen Norm $\|\cdot \|_{2}$ .

Die hier eingeführten Begriffe der linearen, superlinearen und quadratischen Konvergenz werden gelegentlich auch als $Q$ -lineare, $Q$ -superlineare bzw. $Q$ -quadratische Konvergenz bezeichnet, im Unterschied zur $R$ -linearen, $R$ -superlinearen bzw. $R$ -quadratischen Konvergenz (siehe z. B. das Buch von Ortega und Rheinboldt aus dem Jahre 1970). Das „ $Q$ “ steht dabei für „Quotient“, da die Konvergenzrate in allen Fällen mittels des Quotienten $\left\|x^{k+1}-x^{*}\right\|/\left\|x^{k}-x^{*}\right\|$ ausgedrückt werden kann (während „ $R$ “ für engl. „Root“, also „Wurzel“ steht).

Siehe auch

Gradientenabstiegsverfahren

Seiteninformation

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Numerik I' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.

Die Seite wurde als Dokumententyp PanDocElectron-SLIDE erstellt.
Link zur Quelle in Wikiversity: https://de.wikiversity.org/wiki/Kurs:Numerik%20I/Konvergenzraten
siehe auch weitere Informationen zu Wiki2Reveal und unter Wiki2Reveal-Linkgenerator.