RL : Empirical Learning [Model 모를 때]

월곡동로봇팔 2020. 9. 6. 17:19

Empirical Learning : Model을 모를 때

우리가 앞서서 표현한 Bellman Equation은 다음과 같다.

단순히 여러번의 반복적인 작업을 진행했을 때, 그 상태에서 최적의 단계를 정하는 것이 바로 Bellman Equation 이었다.

하지만 Bellman Equation의 단점이 존재한다.

Model (Reward Function, Trasnsition Probability Function)을 알아야한다.
최적의 지점을 찾았다면, 방향 선택에 대해서 확률은 최적의 지점에 대해서는 1, 아닌 지점에서는 0이기 때문에 반복된 작업이 이뤄질수록 항상 같은 선택만 할 것이다.

따라서 Model을 모를 경우, Bellman Equation 같은 경우의 단점을 없애기 위해, 방향 선택에 임의성을 부여하여 확률론적으로 접근하는 Markov Decision Process, MDP를 적용해서 이러한 문제점을 풀려고 한다.

MDP를 적용한 Value Function이다. MDP를 적용하기 이전에는 Step을 이어나가기 위해 V(s')만이 아닌, V(s1'), V(s2'), V(s3')를 구해야했다.

이 때, MDP를 적용한다면 V(s1'),V(s2'),V(s3') 에서 P(s1')V(s1'), P(s2')V(s2'), P(s3')V(s3') 인 확률을 나타내는 P(s') Function을 넣어주어야 한다.

- Value-Based

Model을 알고 있을 때 에는 Agent가 어떻게 움직이고 보상을 받는지 알고 있어서, 실제로 움직이지 않아도 최적의 policy를 dynamic programming을 통해 계산할 수 있었다.

하지만 이런 model을 모를때는 Agent가 어떤 환경에서 실제로 움직여보고 보상을 얻어가는 경험을 토대로 policy를 구해야한다. 여기서 말하는 경험이라는 것은 매 time-step마다 어떤 상태 s에서 행동 a를 취하고 (T와 R 함수를 모르는 상태에서) 보상값 r과 새로운 상태 s’을 얻는 과정의 반복을 의미한다.

Example

Monte Carlo Method
Temporal Difference Method

- Policy-Based

이렇게 value function을 이용한 기본적인 reinforcement learning 방법들을 알아보았는데, 이와 조금 다른 policy-based reinforcement learning도 있습니다.

간단하게 설명하면, policy를 어떤 theta라는 parameter 들로 표현한 후, return값을 최대화시키는 파라미터를 찾는 과정이다.

저작자표시