wtorek, 17 czerwca 2025

Problem wielor臋kiego jednor臋kiego bandyty

 

Ciekawe zagadnienie, kt贸re pozwala lepiej zrozumie膰 reinforcement learning. Wyobra藕my sobie, 偶e jeste艣my w kasynie i mamy przed sob膮 kilka automat贸w do gry. Poci膮gamy za kolejne d藕wignie automatu i z czasem odkrywamy, 偶e niekt贸re z nich daj膮 lepsz膮 wyp艂at臋 ni偶 inne. Celem jest uzyskanie jak najwy偶szej nagrody.

Problem polega na tym, czy mamy skupi膰 si臋 na eksploracji, czy na eksploatacji. Eksploracja to odkrywanie nowych d藕wigni, natomiast eksploatacja, pozostanie przy tych, kt贸re daj膮 dobre wyniki teraz. 

Eksploracja mo偶e prowadzi膰 do tymczasowego zmniejszenia wygranych, a eksploatacja, do zmniejszenia szans na nowe wygrane. 

Problem mo偶na zastosowa膰 w wielu dziedzinach 偶ycia. Przyk艂adowo, mo偶emy uczy膰 si臋 nowego j臋zyka programowania, ale czy nie lepiej jest pozosta膰 przy tym, kt贸ry ju偶 dobrze znamy? Lekarz mo偶e zleci膰 dobrze znan膮 terapi臋, albo wys艂a膰 pacjenta na mniej znan膮 i bardziej ryzykown膮.  

niedziela, 1 czerwca 2025

Arrazzo Specification

Ostatnio wpad艂em na https://spec.openapis.org/arazzo/latest.html. Jest to powstaj膮cy projekt, maj膮cy na celu stworzenie specyfikacji do jeszcze lepszego opisywania endpoint贸w. Opr贸cz swaggera, oferuje ona bardziej szczeg贸艂owy opis, na przyk艂ad opisuj膮cy kolejno艣膰 pobierania danych. Ciekawa inicjatywa, czekam kiedy pojawi si臋 w szerszym u偶yciu :)