Model-based Reinforcement Learning: A Survey
Sekvenčné rozhodovanie, bežne formalizované ako optimalizácia Markovovho rozhodovacieho procesu (MDP), je dôležitou výzvou v umelej inteligencii. Dva kľúčové prístupy k tomuto problému sú posilňovanie učenia (RL) a plánovanie. Táto monografia skúma integráciu oboch oblastí, známejšiu ako učenie na základe posilňovania modelov.
RL založené na modeli má dva hlavné kroky: učenie modelu dynamiky a integráciu plánovania a učenia. V tomto komplexnom prehľade témy sa autori najprv zaoberajú dynamickým modelovým učením vrátane výziev, ako je riešenie stochasticity, neurčitosti, čiastočnej pozorovateľnosti a časovej abstrakcie. Potom predstavujú systematickú kategorizáciu integrácie plánovania a učenia vrátane aspektov, ako napríklad: kde začať plánovať, aké rozpočty vyčleniť na plánovanie a zber reálnych údajov, ako plánovať a ako integrovať plánovanie do slučky učenia a konania.
V závere autori diskutujú o implicitnom RL založenom na modeloch ako o komplexnej alternatíve učenia a plánovania na základe modelov a zaoberajú sa potenciálnymi výhodami RL založeného na modeloch. Popritom autori poukazujú na súvislosti s niekoľkými príbuznými oblasťami RL vrátane hierarchického RL a transferového učenia.
Táto monografia obsahuje široký koncepčný prehľad kombinácie plánovania a učenia pre optimalizáciu Markovovým rozhodovacím procesom. Poskytuje prehľadný a úplný úvod do tejto témy pre študentov aj výskumníkov.
© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)