Enviroment
agent 가 속한 환경. state와 reward를 내릴 수 있는 기준의 참고문헌. 게임규칙, $(S,A,R)$ 모든 것이 Enviroment 의 요소다.
Agent
state에 따라 어떤 action을 내릴지 판단을 내리는 주체
State
$S$. 현재 시점에서 상황이 어떤지 나타내는 값의 집합
Action
$A$. Agent가 선택하는 선택지를 말한다. Reward를 얻기 위해 하는 선택지다.
Reward
$R$. 어떤 action을 취했을 때, 그 action 에 대한 보상이다. 이는 한 action에만 해당한다.
initial state
Agent가 Enviroment와 처음 상호작용할 때의 상태를 뜻한다.
terminal state
더이상의 action이 불가능한 상태를 뜻한다.
Episode
initial state 부터 terminal state 까지 Agent 가 거친 sequence들을 말한다.
Markov Property
현재 상태만 참조하면 항상 필요한 모든 정보를 알 수 있다.
$G_t$ function, 누적보상
$$G_t \stackrel{def}{=} r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + ... = \sum_{i=t}^T \gamma ^{i-t}r_i = r_t + \gamma G_{t+1}$$
t번째 state 이후의 누적 reward를 나타내는 함수이다.
Policy
Agent가 판단하는 방식이다. 또한 State와 Action 관계를 나타낸다. 어느 state일 때 이 action을 선택할 확률.
정책을 수학적으로 나타내면 상태에 따른 행동의 조건부 확률, 즉 $P(action|state)$ == $\pi(a|s)$가 된다.
또 현재 학습중인 정책(target policy)은 $\pi$ 로 쓰고 과거에 데이터를 수집할 때 취했던 정책(behavior poilcy)은 $\mu$ 로 쓰는 것이 관례입니다. 정책 중 가장 좋은 것을 optimal policy라고 부르고 $\pi^*$ 로 나타냅니다.
여기서 greedy policy 개념도 나온다.
Transition Probability
어느 State에서 action을 선택했을 때, state s' 으로 갈 확률
Value Function
$$V_\pi(s) \stackrel{def}{=} E_\pi[G_t |S_t=s]$$
$ E_\pi[G_t |S_t=s] = E_{a\sim\pi(\cdot|s)}E_{s', r_t\sim p(\cdot|s,a)}[r_t + \gamma G_{t+1}] = \sum_a \pi(a|s)\sum_{s', r_t}p(s',r_t|s, a) [r_t + \gamma v_\pi(s')] $
state에 대한 value function이다.
어떤 state에서 action을 취했을 때 --> 특정 reward를 고 $s'$으로 갈 확률의 평균을 $$p(s',r_t|s, a)$$이라 한다.
state s에서 action을 한 policy를 따를 경우, 누적보상 $G_t$의 기댓값을 그 상태 s의 value function이라고 한다.
state 일 때 가지는 누적 reward (return)들의 평균.
Q-Function
$$Q_\pi(s, a) \stackrel{def}{=} E_\pi[G_t |S_t=s, A_t=a]=E_{s',r\sim p(\cdot|s, a)}[r+\gamma E_{a' \sim\pi}[Q(s', a')]]$$
state, action 을 짝을 지어 Q-function을 정의한다.
주어진 state에서 action을 한 후, 얻을 수 있는 누적보상, G의 기댓값이 된다. 어느 state에서 action을 취했을 때 가지는 누적 reward들의 평균.
Optimal Policy
누적보상의 기댓값이 가장 큰 policy를 optimal policy라고 부른다.
이를 만족하면, Value Function 또한 모든 state에 대해 가장 커지게 된다. 이 말은 만약 어떤 state에서 누적보상이 크다면, Value function을 몰라도 Value function이 제일 큰 것을 고를 수 있다. 즉, q-function이 최대인 것을 골라야 최대의 value function을 고를 수 있다.
모든 가능한 policy에 대해서 그때그때 가장 좋은 policy에 따라 행동하는 것과 동일하다고 볼 수 있다.
Value-Policy-Action 과의 관계
$$V^\pi(s) = \sum_{a ∈ A} \pi (a|s) * Q^\pi(a,s)$$
$V^\pi(s)$ 는 어느 state일 때, 그 state가 가지는 누적 reward의 기댓값들이다.
$\pi(a | s)$는 어느 state일 때 어느 action을 취할지에 대한 조건부확률이다.
$Q^\pi(a,s)$ 는 어느 state에서 action을 취했을 때, 그 state가 가지는 누적 reward의 기댓값들이다.
따라서 Value Function을 가지려면
어느 state에서 action을 취했을 때 가지는 누적 reward들의 평균 // 어느 state일 때 이 action을 선택할 확률을 곱해주어야한다.
action을 선택할 확률에서 action을 취했을 때의 확률이 서로 곱해지니까 결국은 state 일 때 가지는 누적 reward들의 평균을 Value Function이라고 말할 수 있다.
Monte Carlo Method
TD Method
Bootstrapping
Model-based
Model-Free
www.secmem.org/blog/2019/12/15/RL-key-concepts/www.secmem.org/blog/2019/12/15/RL-key-concepts/
'AI' 카테고리의 다른 글
DQN (Deep Q-Networks) (0) | 2020.10.03 |
---|---|
Off-Policy Control (0) | 2020.09.24 |
RL : TD Method (0) | 2020.09.06 |
RL : Monte Carlo Method (0) | 2020.09.06 |
RL : Empirical Learning [Model 모를 때] (0) | 2020.09.06 |
댓글