policy based1 RL : Empirical Learning [Model 모를 때] Empirical Learning : Model을 모를 때 우리가 앞서서 표현한 Bellman Equation은 다음과 같다. 단순히 여러번의 반복적인 작업을 진행했을 때, 그 상태에서 최적의 단계를 정하는 것이 바로 Bellman Equation 이었다. 하지만 Bellman Equation의 단점이 존재한다. Model (Reward Function, Trasnsition Probability Function)을 알아야한다. 최적의 지점을 찾았다면, 방향 선택에 대해서 확률은 최적의 지점에 대해서는 1, 아닌 지점에서는 0이기 때문에 반복된 작업이 이뤄질수록 항상 같은 선택만 할 것이다. 따라서 Model을 모를 경우, Bellman Equation 같은 경우의 단점을 없애기 위해, 방향 선택에 임의.. 2020. 9. 6. 이전 1 다음