Verstärkungslernen mit variablen Aktionen

9

Alle Verstärkungslernen -Algorithmen, die ich gelesen habe, werden normalerweise auf einen einzelnen Agenten angewendet, der eine feste Anzahl von Aktionen. Gibt es Verstärkungsalgorithmen für die Entscheidungsfindung unter Berücksichtigung einer variablen Anzahl von Aktionen? Wie würdest du beispielsweise einen RL-Algorithmus in einem Computerspiel anwenden, in dem ein Spieler N Soldaten kontrolliert und jeder Soldat eine zufällige Anzahl von Aktionen hat, die auf seinem Zustand basieren? Sie können keine feste Anzahl von Aktionen für einen globalen Entscheidungsträger (d. H. "Den General") formulieren, da sich die verfügbaren Aktionen ständig ändern, wenn Soldaten erschaffen und getötet werden. Und Sie können keine feste Anzahl von Aktionen auf Soldatenebene formulieren, da die Aktionen des Soldaten abhängig von seiner unmittelbaren Umgebung sind. Wenn ein Soldat keine Gegner sieht, kann er nur laufen, während er 10 Gegner sieht, dann hat er 10 neue Aktionen und greift einen der 10 Gegner an.

    
Cerin 07.03.2011, 04:34
quelle

2 Antworten

4

Was Sie beschreiben, ist nichts Ungewöhnliches. Reinforcement Learning ist eine Möglichkeit, die Wertfunktion eines Markov-Entscheidungsprozesses zu finden. In einem MDP hat jeder Staat seine eigenen Aktionen. Um mit der Anwendung zum Verstärken des Lernens fortzufahren, müssen Sie klar definieren, was die Zustände, Aktionen und Belohnungen in Ihrem Problem sind.

    
Don Reba 28.07.2011, 21:46
quelle
0

Wenn Sie für jeden Soldaten eine Reihe von Aktionen haben, die abhängig von bestimmten Bedingungen verfügbar sind oder nicht, können Sie dies immer noch als Auswahl aus einer festgelegten Menge von Aktionen modellieren. Zum Beispiel:

  • Erstellen Sie einen "Dienstprogrammwert" für jeden der vollständigen Aktionen für jeden Soldaten
  • Wählen Sie die Aktion mit dem höchsten Wert und ignorieren Sie die Aktionen, die zu einem bestimmten Zeitpunkt nicht verfügbar sind

Wenn Sie mehrere mögliche Ziele haben, gilt das gleiche Prinzip, außer dass Sie dieses Mal modellieren, dass die Zielfunktion als zusätzlicher Parameter verwendet wird, und die Evaluierungsfunktion mehrmals ausführen (eine für jedes Ziel). Sie wählen das Ziel mit dem höchsten Angriffs-Dienstprogramm aus.

    
mikera 07.03.2011 11:15
quelle