Reinforcement Learning

TLDR: Reinforcement Learning trainiert einen KI-Agenten, indem gute Aktionen belohnt und schlechte bestraft werden. Der Agent lernt durch Versuch und Irrtum, nicht anhand gelabelter Beispiele.

Reinforcement Learning (RL) ist ein Paradigma des maschinellen Lernens. Ein Agent interagiert mit einer Umgebung und führt bei jedem Schritt Aktionen aus. Nach jeder Aktion erhält er ein Belohnungssignal. Im Laufe der Zeit erlernt der Agent eine Policy – eine Strategie zur Maximierung der kumulativen Belohnung. RL unterscheidet sich vom überwachten Lernen, das gelabelte Daten erfordert. Der Agent lernt ausschließlich aus eigener Erfahrung.

Kernkonzepte

Agent: Der Lernende, der Aktionen in der Umgebung ausführt.
Umgebung: Die Welt, in der der Agent agiert. Sie reagiert auf die Aktionen des Agenten.
Zustand: Die aktuelle Situation, die der Agent beobachtet.
Aktion: Eine Entscheidung, die der Agent bei jedem Zeitschritt trifft.
Belohnung: Ein skalares Signal, das anzeigt, wie gut eine Aktion war.
Policy: Eine Abbildung von Zuständen auf Aktionen. Das Ziel ist, die beste Policy zu erlernen.
Wertfunktion: Eine Schätzung der zukünftigen Belohnung aus einem gegebenen Zustand.

Wie Reinforcement Learning funktioniert

Bei jedem Zeitschritt beobachtet der Agent seinen aktuellen Zustand. Er wählt eine Aktion basierend auf seiner aktuellen Policy. Die Umgebung wechselt in einen neuen Zustand und gibt eine Belohnung zurück. Der Agent aktualisiert seine Policy, um Aktionen zu bevorzugen, die zu höheren Belohnungen geführt haben. Dieser Zyklus wiederholt sich über Tausende oder Millionen von Schritten. Die zentrale Herausforderung ist der Exploration-Exploitation-Kompromiss: Der Agent muss neue Aktionen ausprobieren, um bessere Strategien zu entdecken, aber auch bekannte gute Aktionen nutzen, um Belohnungen zu sammeln.

Wichtige Algorithmen

Q-Learning: Erlernt eine Aktions-Wert-Funktion ohne ein Modell der Umgebung.
Deep Q-Network (DQN): Kombiniert Q-Learning mit tiefen neuronalen Netzen. Wurde von DeepMind zum Meistern von Atari-Spielen eingesetzt.
Proximal Policy Optimization (PPO): Eine stabile, weit verbreitete Policy-Gradient-Methode. Wurde zum Training von OpenAIs Robotik- und Sprachsystemen verwendet.
Actor-Critic-Methoden: Kombinieren ein Policy-Netzwerk (Actor) und einen Wertschätzer (Critic).
Modellbasiertes RL: Der Agent erstellt ein internes Modell der Umgebung, um vorausschauend zu planen.

Anwendungen

Robotik: Roboter lernen durch RL das Gehen, Greifen und Manipulieren von Objekten.
Autonome Fahrzeuge: RL hilft Agenten, Fahrstrategien in der Simulation zu erlernen.
Spiele: AlphaGo und AlphaZero besiegten Weltmeister mithilfe von RL.
LLM-Feinabstimmung: Reinforcement Learning aus menschlichem Feedback (RLHF) richtet große Sprachmodelle an menschlichen Präferenzen aus.
Datenerhebungsstrategie: RL kann optimieren, wie Web-Agenten Seiten navigieren, um strukturierte Daten effizient zu sammeln.

Reinforcement Learning und Trainingsdaten

RL-Agenten trainieren häufig in simulierten Umgebungen vor dem Einsatz. Hochwertige Simulation erfordert präzise Weltmodelle. Reale Daten werden zur Kalibrierung dieser Simulationen verwendet. Die Datensätze von Bright Data helfen Teams, fundierte Trainingsumgebungen aufzubauen. Vielfältige, reale Trainingsdaten reduzieren die Sim-to-Real-Lücke.

Gratis testen Starte mit Google