Hodnotenie:
Momentálne nie sú žiadne recenzie čitateľov. Hodnotenie je založené na 2 hlasoch.
Regret Analysis of Stochastic and Nonstochastic Multi-Armed Bandit Problems
Problém viacrukého banditu - alebo jednoducho problém banditu - je sekvenčný alokačný problém definovaný súborom akcií. V každom časovom kroku sa akcii pridelí jednotkový zdroj a získa sa nejaká pozorovateľná výplata.
Cieľom je maximalizovať celkovú výplatu získanú v postupnosti alokácií. Názov bandita odkazuje na hovorový výraz pre hrací automat (v americkom slangu "jednoruký bandita"). V kasíne sa sekvenčný alokačný problém získava vtedy, keď hráč stojí pred mnohými hracími automatmi naraz ("multi-armed bandit") a musí opakovane vyberať, kam vloží ďalšiu mincu.
Problémy viacrukého banditu sú najzákladnejšími príkladmi sekvenčných rozhodovacích problémov s kompromisom medzi prieskumom a využívaním.
Ide o rovnováhu medzi zotrvaním pri možnosti, ktorá v minulosti priniesla najvyššie výhry, a skúmaním nových možností, ktoré by v budúcnosti mohli priniesť vyššie výhry. Hoci štúdium banditovských problémov siaha až do 30.
rokov 20. storočia, kompromisy prieskumu a využívania sa vyskytujú vo viacerých moderných aplikáciách, ako je umiestňovanie reklamy, optimalizácia webových stránok a smerovanie paketov. Z matematického hľadiska je viacramenný bandita definovaný procesom výplaty spojeným s každou možnosťou.
V tejto knihe sa zameriavame na dva extrémne prípady, v ktorých je analýza ľútosti obzvlášť jednoduchá a elegantná: nezávislé a identicky rozdelené výplaty a adverzné výplaty. Okrem základného nastavenia s konečným počtom akcií analyzuje aj niektoré najdôležitejšie varianty a rozšírenia, ako napríklad model kontextového banditu. Táto monografia je ideálnou príručkou pre študentov a výskumníkov so záujmom o banditovské problémy.
© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)