i

Fachkonzept: Lernrate

Um mit zufälligen Ereignissen bzw. mit Chancen und Risiken umzugehen, sorgt man beim Q-Learning-Algorithmus dafür, dass sich einzelne positive (oder negative) Erfahrungen nicht "schlagartig" auf die Q-Werte auswirken sondern nur allmählich. Bisher wurde der Q-Wert beim Lernen direkt auf die Summe aus Belohnung und (etwas reduziert) den künftigen besten Q-Wert gesetzt: Q(s,a)r+γmaxaQ(s,a) Nun gehen wir etwas behutsamer vor und verschieben den Q-Wert nur ein Stück weit in Richtung dieses Wertes. Wir bilden dafür eine Art Mittelwert zwischen dem alten Q-Wert und der oben beschriebenen Summe. Q(s,a)(1α)Q(s,a)+α(r+γmaxaQ(s,a)) Die neue Variable α heißt Lernrate. Ihr Wert liegt typischerweise irgendwo zwischen 0 und 1. Den Einfluss, die die Lernrate auf das Lernen hat, kann man sich gut verdeutlichen, wenn man zwei Extremfälle betrachtet:

  • α=1
    In diesem Fall wird der erste Summand 0 und die Formel reduziert sich gerade wieder auf die ursprüngliche, die wir vorher verwendet hatten und bei der der bisherige Q-Wert vollkommen in Vergessenheit gerät: Q(s,a)r+γmaxaQ(s,a)
  • α=0
    In diesem Fall ist der zweite Summand 0 und der Q-Wert ändert sich einfach überhaupt nicht: Q(s,a)Q(s,a)
Die Lernrate α steuert also, wie stark eine neue Erfahrung den Q-Wert beeinflusst. Kleine Werte für α sorgen für eine starke Gewichtung des bisher Gelernten und ein nur langsames Lernen. Große Werte für α sorgen für eine schnelle Anpassung der Q-Werte, aber auch für ein etwas "sprunghaftes" Verhalten.

Suche

5.1.3.5.5.2Fachkonzept: Lernrate
Kopieren durch Anklicken

Rückmeldung geben