Ciekawe zagadnienie, kt贸re pozwala lepiej zrozumie膰 reinforcement learning. Wyobra藕my sobie, 偶e jeste艣my w kasynie i mamy przed sob膮 kilka automat贸w do gry. Poci膮gamy za kolejne d藕wignie automatu i z czasem odkrywamy, 偶e niekt贸re z nich daj膮 lepsz膮 wyp艂at臋 ni偶 inne. Celem jest uzyskanie jak najwy偶szej nagrody.
Problem polega na tym, czy mamy skupi膰 si臋 na eksploracji, czy na eksploatacji. Eksploracja to odkrywanie nowych d藕wigni, natomiast eksploatacja, pozostanie przy tych, kt贸re daj膮 dobre wyniki teraz.
Eksploracja mo偶e prowadzi膰 do tymczasowego zmniejszenia wygranych, a eksploatacja, do zmniejszenia szans na nowe wygrane.
Problem mo偶na zastosowa膰 w wielu dziedzinach 偶ycia. Przyk艂adowo, mo偶emy uczy膰 si臋 nowego j臋zyka programowania, ale czy nie lepiej jest pozosta膰 przy tym, kt贸ry ju偶 dobrze znamy? Lekarz mo偶e zleci膰 dobrze znan膮 terapi臋, albo wys艂a膰 pacjenta na mniej znan膮 i bardziej ryzykown膮.