A Tutorial on Thompson Sampling
Thompsonovo vzorkovanie je algoritmus pre online rozhodovacie problémy, pri ktorých sa akcie vykonávajú postupne tak, že sa musí nájsť rovnováha medzi využívaním toho, čo je známe, na maximalizáciu okamžitého výkonu a investovaním do akumulácie nových informácií, ktoré môžu zlepšiť budúci výkon.
Algoritmus rieši širokú škálu problémov výpočtovo efektívnym spôsobom, a preto sa teší širokému využitiu. A Tutorial on Thompson Sampling sa zaoberá algoritmom a jeho aplikáciou, pričom ilustruje koncepty na mnohých príkladoch vrátane problémov Bernoulliho banditu, problémov najkratšej cesty, odporúčaní produktov, sortimentu, aktívneho učenia s neurónovými sieťami a posilneného učenia v markovských rozhodovacích procesoch.
Väčšina týchto problémov zahŕňa komplexné informačné štruktúry, kde informácie odhalené vykonaním akcie informujú o presvedčeniach o iných akciách. Diskutuje sa v nej aj o tom, kedy a prečo je alebo nie je Thompsonovo vzorkovanie efektívne, a o vzťahoch k alternatívnym algoritmom.
© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)