RL : RL 용어정리

월곡동로봇팔 2020. 9. 8. 17:27

Enviroment

agent 가 속한 환경. state와 reward를 내릴 수 있는 기준의 참고문헌. 게임규칙, $(S,A,R)$ 모든 것이 Enviroment 의 요소다.

Agent

state에 따라 어떤 action을 내릴지 판단을 내리는 주체

State

$S$. 현재 시점에서 상황이 어떤지 나타내는 값의 집합

Action

$A$. Agent가 선택하는 선택지를 말한다. Reward를 얻기 위해 하는 선택지다.

Reward

$R$. 어떤 action을 취했을 때, 그 action 에 대한 보상이다. 이는 한 action에만 해당한다.

initial state

Agent가 Enviroment와 처음 상호작용할 때의 상태를 뜻한다.

terminal state

더이상의 action이 불가능한 상태를 뜻한다.

Episode

initial state 부터 terminal state 까지 Agent 가 거친 sequence들을 말한다.

Markov Property

현재 상태만 참조하면 항상 필요한 모든 정보를 알 수 있다.

$G_t$ function, 누적보상

$$G_t \stackrel{def}{=} r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + ... = \sum_{i=t}^T \gamma ^{i-t}r_i = r_t + \gamma G_{t+1}$$

t번째 state 이후의 누적 reward를 나타내는 함수이다.

Policy

Agent가 판단하는 방식이다. 또한 State와 Action 관계를 나타낸다. 어느 state일 때 이 action을 선택할 확률.

정책을 수학적으로 나타내면 상태에 따른 행동의 조건부 확률, 즉 $P(action|state)$ == $\pi(a|s)$가 된다.

또 현재 학습중인 정책(target policy)은 $\pi$ 로 쓰고 과거에 데이터를 수집할 때 취했던 정책(behavior poilcy)은 $\mu$ 로 쓰는 것이 관례입니다. 정책 중 가장 좋은 것을 optimal policy라고 부르고 $\pi^*$ 로 나타냅니다.

여기서 greedy policy 개념도 나온다.

Transition Probability

어느 State에서 action을 선택했을 때, state s' 으로 갈 확률

Value Function

$$V_\pi(s) \stackrel{def}{=} E_\pi[G_t |S_t=s]$$

$ E_\pi[G_t |S_t=s] = E_{a\sim\pi(\cdot|s)}E_{s', r_t\sim p(\cdot|s,a)}[r_t + \gamma G_{t+1}] = \sum_a \pi(a|s)\sum_{s', r_t}p(s',r_t|s, a) [r_t + \gamma v_\pi(s')] $

state에 대한 value function이다.

어떤 state에서 action을 취했을 때 --> 특정 reward를 고 $s'$으로 갈 확률의 평균을 $$p(s',r_t|s, a)$$이라 한다.

state s에서 action을 한 policy를 따를 경우, 누적보상 $G_t$의 기댓값을 그 상태 s의 value function이라고 한다.

state 일 때 가지는 누적 reward (return)들의 평균.

Q-Function

$$Q_\pi(s, a) \stackrel{def}{=} E_\pi[G_t |S_t=s, A_t=a]=E_{s',r\sim p(\cdot|s, a)}[r+\gamma E_{a' \sim\pi}[Q(s', a')]]$$

state, action 을 짝을 지어 Q-function을 정의한다.

주어진 state에서 action을 한 후, 얻을 수 있는 누적보상, G의 기댓값이 된다. 어느 state에서 action을 취했을 때 가지는 누적 reward들의 평균.

Optimal Policy

누적보상의 기댓값이 가장 큰 policy를 optimal policy라고 부른다.

이를 만족하면, Value Function 또한 모든 state에 대해 가장 커지게 된다. 이 말은 만약 어떤 state에서 누적보상이 크다면, Value function을 몰라도 Value function이 제일 큰 것을 고를 수 있다. 즉, q-function이 최대인 것을 골라야 최대의 value function을 고를 수 있다.

모든 가능한 policy에 대해서 그때그때 가장 좋은 policy에 따라 행동하는 것과 동일하다고 볼 수 있다.

Value-Policy-Action 과의 관계

$$V^\pi(s) = \sum_{a ∈ A} \pi (a|s) * Q^\pi(a,s)$$

$V^\pi(s)$ 는 어느 state일 때, 그 state가 가지는 누적 reward의 기댓값들이다.

$\pi(a | s)$는 어느 state일 때 어느 action을 취할지에 대한 조건부확률이다.

$Q^\pi(a,s)$ 는 어느 state에서 action을 취했을 때, 그 state가 가지는 누적 reward의 기댓값들이다.

따라서 Value Function을 가지려면

어느 state에서 action을 취했을 때 가지는 누적 reward들의 평균 // 어느 state일 때 이 action을 선택할 확률을 곱해주어야한다.

action을 선택할 확률에서 action을 취했을 때의 확률이 서로 곱해지니까 결국은 state 일 때 가지는 누적 reward들의 평균을 Value Function이라고 말할 수 있다.

Monte Carlo Method

TD Method

Bootstrapping

Model-based

Model-Free

www.secmem.org/blog/2019/12/15/RL-key-concepts/www.secmem.org/blog/2019/12/15/RL-key-concepts/

강화학습 핵심 개념 정리 (1)

강화학습 핵심 개념 정리 (1) Reinforcement Learning Key Concepts 이 시리즈의 목표는 강화학습을 잘 모르는 사람이 해당 분야의 전반적인 흐름을 파악하고 이 글을 토대로 세부적인 내용을 찾아볼 수 있�

www.secmem.org

저작자표시