Bestärkendes Lernen

Bestärkendes Lernen oder verstärkendes Lernen (englisch reinforcement learning, RL) steht für einen Lernstil des maschinellen Lernens. Dabei führt ein KI-Agent selbständig Aktionen in einer dynamischen Umgebung aus und erlernt durch Versuch und Irrtum eine Strategie (englisch policy), die die Summe der erhaltenen Belohnungen (englisch rewards) maximiert.

Der Begriff ist der Psychologie entlehnt und wurde bereits seit den Anfängen der Kybernetik verwendet. So benutzte schon Marvin Minsky den Begriff in seiner Dissertation von 1954. Die Modelle des bestärkenden Lernens versuchen, das Lernverhalten in der Natur nachzubilden.

Die Umgebung wird in der Regel als Markov-Entscheidungsproblem (MDP) beschrieben. Eine klassische Methode für das Lösen eines MDPs ist die dynamische Programmierung. Dazu muss ein genaues mathematisches Modell für das Problem bekannt sein. Außerdem ist die Zahl der Zustände, die effizient verarbeitet werden können, begrenzt. Der wesentliche Unterschied zwischen klassischen Methoden und denen des bestärkenden Lernens besteht darin, dass die Methoden des bestärkenden Lernens kein Modell für das Markov-Entscheidungsproblem voraussetzen und sie auch auf MDPs mit vielen Zuständen effizient angewendet werden können.

Diese Methoden müssen einen Kompromiss finden zwischen dem Erkunden (englisch exploration) von noch unbekannten Zuständen und dem Ausnutzen (englisch exploitation) von erlerntem Wissen, mit dem der Agent die Summe der erhaltenen Belohnungen maximiert. Dabei können Belohnungen auch verzögert eintreffen. Eine Aktion, auf die zunächst keine hohe Belohnung erfolgt, kann zu einem Zustand führen, von dem aus mit weiteren Aktionen eine hohe Belohnung erreicht werden kann.

Beim bestärkenden Lernen wird die Theorie der optimalen Steuerung angewendet. Ein einfacher Ansatz ist das Q-Lernen. Dabei werden Erfahrungswerte zu Zuständen und Aktionen direkt in Tabellen gespeichert. Es wird kein Modell von der Umgebung erstellt. Q-Lernen funktioniert gut bei Problemstellungen, die nur wenige Zustände und Aktionen enthalten, so dass der Agent beim Lernen mit Sicherheit jeden Zustand mehrfach erreichen und darin Aktionen ausführen kann. Andere Ansätze erstellen beim Lernen ein Modell der Umgebung.

Ein Spezialfall ist die Verwendung eines Bewertungsmodells, welches durch menschliche Interaktion mit überwachtem Lernen vorprogrammiert wird und die Interaktion mit der Umgebung ergänzt. In diesem Fall erfolgt bestärkendes Lernen durch menschlich beeinflusste Rückkopplung (englisch reinforcement learning through human feedback, (RLHF)).

1 2 Leslie P. Kaelbling, Michael L. Littman, Andrew W. Moore: Reinforcement Learning: A Survey. In: Journal of Artificial Intelligence Research. 4. Jahrgang, 1996, S. 237–285, doi:10.1613/jair.301, arxiv:cs/9605103 (englisch, cs.washington.edu (Memento des Originals vom 20. November 2001)).
↑ Richard Sutton: Reinforcement Learning FAQ. 2. April 2004, archiviert vom Original (nicht mehr online verfügbar) am 28. August 2016; abgerufen am 21. April 2016 (englisch).
↑ Yi Ma und Shankar Sastry: Reinforcement Learning & Optimal Control Overview. (PDF) University of California, Berkeley, 17. Februar 2021, abgerufen am 18. April 2022 (englisch).
↑ Illustrating Reinforcement Learning from Human Feedback (RLHF). huggingface.co, 9. Dezember 2022. Abgerufen am 8. August 2023 (englisch)

[kaelbling-1] 1 2 Leslie P. Kaelbling, Michael L. Littman, Andrew W. Moore: Reinforcement Learning: A Survey. In: Journal of Artificial Intelligence Research. 4. Jahrgang, 1996, S. 237–285, doi:10.1613/jair.301, arxiv:cs/9605103 (englisch, cs.washington.edu (Memento des Originals vom 20. November 2001)).

[Sutton-2] Richard Sutton: Reinforcement Learning FAQ. 2. April 2004, archiviert vom Original (nicht mehr online verfügbar) am 28. August 2016; abgerufen am 21. April 2016 (englisch).

[3] Yi Ma und Shankar Sastry: Reinforcement Learning & Optimal Control Overview. (PDF) University of California, Berkeley, 17. Februar 2021, abgerufen am 18. April 2022 (englisch).

[4] Illustrating Reinforcement Learning from Human Feedback (RLHF). huggingface.co, 9. Dezember 2022. Abgerufen am 8. August 2023 (englisch)