본문 바로가기

MC method2

RL : Monte Carlo Method Introduction 앞서서 우리는 Model을 아는 경우, Dynamic Planning 을 통해서 True Value Function을 예측한다고 배웠다. 이 때 우리는 full-width backup, 즉, 모든 state들을 업데이트 할 수 있다. 왜냐하면 우리는 이미 model을 알고 있기 때문이다. 하지만 강화학습은 Model 을 모르는 경우이기 때문에 sample backup을 진행한다. 따라서 모든 state들을 고려하지 않고, 그 중에서 sampling을 통해서 한 길만 선택해서 가보는 것이다. 이처럼 sample backup을 하는 것은 Monte Carlo Method 와 TD Method 방법 두 가지가 있다. 그래서 실제로 알파고에도 쓰였던, 모든 step을 training 하는.. 2020. 9. 6.
RL : Empirical Learning [Model 모를 때] Empirical Learning : Model을 모를 때 우리가 앞서서 표현한 Bellman Equation은 다음과 같다. 단순히 여러번의 반복적인 작업을 진행했을 때, 그 상태에서 최적의 단계를 정하는 것이 바로 Bellman Equation 이었다. 하지만 Bellman Equation의 단점이 존재한다. Model (Reward Function, Trasnsition Probability Function)을 알아야한다. 최적의 지점을 찾았다면, 방향 선택에 대해서 확률은 최적의 지점에 대해서는 1, 아닌 지점에서는 0이기 때문에 반복된 작업이 이뤄질수록 항상 같은 선택만 할 것이다. 따라서 Model을 모를 경우, Bellman Equation 같은 경우의 단점을 없애기 위해, 방향 선택에 임의.. 2020. 9. 6.