Bestärkendes Lernen

Bestärkendes Lernen oder verstärkendes Lernen (englisch reinforcement learning, RL) steht für eine Reihe von Methoden des maschinellen Lernens, bei denen ein Software-Agent selbständig eine Strategie (englisch policy) erlernt, um erhaltene Belohnungen zu maximieren. Dabei wird dem Agenten nicht vorgezeigt, welche Aktion in welcher Situation die beste ist, sondern er erhält durch die Interaktion mit seiner Umwelt zu bestimmten Zeitpunkten eine Belohnung, die auch negativ sein kann.

Der Begriff ist der Psychologie entlehnt und wurde bereits seit den Anfängen der Kybernetik verwendet. So benutzte schon Marvin Minsky den Begriff in seiner Dissertation von 1954. Die Modelle des bestärkenden Lernens versuchen, das Lernverhalten in der Natur nachzubilden.

Es besteht eine besonders enge Beziehung des bestärkenden Lernens zur dynamischen Programmierung und optimalen Steuerung. In Letzteren ist, anders als bei Ersterem, a priori ein Umgebungsmodell gegeben, das die Interaktion mit der Umwelt überflüssig macht.

Ein Spezialfall ist die Verwendung eines Bewertungsmodells, welches durch menschliche Interaktion mit überwachtem Lernen vorprogrammiert wird und die Interaktion mit der Umwelt ergänzt. In diesem Fall erfolgt bestärkendes Lernen durch menschlich beeinflusste Rückkopplung (englisch reinforcement learning through human feedback, (RLHF)).

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.