Alle Verstärkungslernen -Algorithmen, die ich gelesen habe, werden normalerweise auf einen einzelnen Agenten angewendet, der eine feste Anzahl von Aktionen. Gibt es Verstärkungsalgorithmen für die Entscheidungsfindung unter Berücksichtigung einer variablen Anzahl von Aktionen? Wie würdest du beispielsweise einen RL-Algorithmus in einem Computerspiel anwenden, in dem ein Spieler N Soldaten kontrolliert und jeder Soldat eine zufällige Anzahl von Aktionen hat, die auf seinem Zustand basieren? Sie können keine feste Anzahl von Aktionen für einen globalen Entscheidungsträger (d. H. "Den General") formulieren, da sich die verfügbaren Aktionen ständig ändern, wenn Soldaten erschaffen und getötet werden. Und Sie können keine feste Anzahl von Aktionen auf Soldatenebene formulieren, da die Aktionen des Soldaten abhängig von seiner unmittelbaren Umgebung sind. Wenn ein Soldat keine Gegner sieht, kann er nur laufen, während er 10 Gegner sieht, dann hat er 10 neue Aktionen und greift einen der 10 Gegner an.
Was Sie beschreiben, ist nichts Ungewöhnliches. Reinforcement Learning ist eine Möglichkeit, die Wertfunktion eines Markov-Entscheidungsprozesses zu finden. In einem MDP hat jeder Staat seine eigenen Aktionen. Um mit der Anwendung zum Verstärken des Lernens fortzufahren, müssen Sie klar definieren, was die Zustände, Aktionen und Belohnungen in Ihrem Problem sind.
Wenn Sie für jeden Soldaten eine Reihe von Aktionen haben, die abhängig von bestimmten Bedingungen verfügbar sind oder nicht, können Sie dies immer noch als Auswahl aus einer festgelegten Menge von Aktionen modellieren. Zum Beispiel:
Wenn Sie mehrere mögliche Ziele haben, gilt das gleiche Prinzip, außer dass Sie dieses Mal modellieren, dass die Zielfunktion als zusätzlicher Parameter verwendet wird, und die Evaluierungsfunktion mehrmals ausführen (eine für jedes Ziel). Sie wählen das Ziel mit dem höchsten Angriffs-Dienstprogramm aus.
Tags und Links machine-learning reinforcement-learning planning