Multi-Armed Bandit | Wadhwani School of Data Science and Artificial Intelligence

Efficient-UCBV: An Almost Optimal Algorithm using Variance Estimates

Publications

We propose a novel variant of the UCB algorithm (referred to as Efficient-UCB-Variance (EUCBV)) for minimizing cumulative regret in the stochastic multi-armed bandit (MAB) setting. EUCBV incorporates the arm elimination …

Tags: UCB algorithm, multi-armed bandit, variant estimates