RL : RL 용어정리

Enviroment

agent 가 속한 환경. state와 reward를 내릴 수 있는 기준의 참고문헌. 게임규칙, $(S,A,R)$ 모든 것이 Enviroment 의 요소다.

Agent

state에 따라 어떤 action을 내릴지 판단을 내리는 주체

State

$S$ . 현재 시점에서 상황이 어떤지 나타내는 값의 집합

Action

$A$ . Agent가 선택하는 선택지를 말한다. Reward를 얻기 위해 하는 선택지다.

Reward

$R$ . 어떤 action을 취했을 때, 그 action 에 대한 보상이다. 이는 한 action에만 해당한다.

initial state

Agent가 Enviroment와 처음 상호작용할 때의 상태를 뜻한다.

terminal state

더이상의 action이 불가능한 상태를 뜻한다.

Episode

initial state 부터 terminal state 까지 Agent 가 거친 sequence들을 말한다.

Markov Property

현재 상태만 참조하면 항상 필요한 모든 정보를 알 수 있다.

$G_t$ function, 누적보상

$G_t \stackrel{def}{=} r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + ... = \sum_{i=t}^T \gamma ^{i-t}r_i = r_t + \gamma G_{t+1}$

t번째 state 이후의 누적 reward를 나타내는 함수이다.

Policy

Agent가 판단하는 방식이다. 또한 State와 Action 관계를 나타낸다. 어느 state일 때 이 action을 선택할 확률.

정책을 수학적으로 나타내면 상태에 따른 행동의 조건부 확률, 즉 $P(action|state)$ == $\pi(a|s)$ 가 된다.

또 현재 학습중인 정책(target policy)은 $\pi$ 로 쓰고 과거에 데이터를 수집할 때 취했던 정책(behavior poilcy)은 $\mu$ 로 쓰는 것이 관례입니다. 정책 중 가장 좋은 것을 optimal policy라고 부르고 $\pi^*$ 로 나타냅니다.

여기서 greedy policy 개념도 나온다.

Transition Probability

어느 State에서 action을 선택했을 때, state s' 으로 갈 확률

Value Function

$V_\pi(s) \stackrel{def}{=} E_\pi[G_t |S_t=s]$

$ E_\pi[G_t |S_t=s] = E_{a\sim\pi(\cdot|s)}E_{s', r_t\sim p(\cdot|s,a)}[r_t + \gamma G_{t+1}] = \sum_a \pi(a|s)\sum_{s', r_t}p(s',r_t|s, a) [r_t + \gamma v_\pi(s')] $

state에 대한 value function이다.

어떤 state에서 action을 취했을 때 --> 특정 reward를 고 $s'$ 으로 갈 확률의 평균을 $$p(s',r_t|s, a)$$이라 한다.

state s에서 action을 한 policy를 따를 경우, 누적보상 $G_t$ 의 기댓값을 그 상태 s의 value function이라고 한다.

state 일 때 가지는 누적 reward (return)들의 평균.

Q-Function

$Q_\pi(s, a) \stackrel{def}{=} E_\pi[G_t |S_t=s, A_t=a]=E_{s',r\sim p(\cdot|s, a)}[r+\gamma E_{a' \sim\pi}[Q(s', a')]]$

state, action 을 짝을 지어 Q-function을 정의한다.

주어진 state에서 action을 한 후, 얻을 수 있는 누적보상, G의 기댓값이 된다. 어느 state에서 action을 취했을 때 가지는 누적 reward들의 평균.

Optimal Policy

누적보상의 기댓값이 가장 큰 policy를 optimal policy라고 부른다.

이를 만족하면, Value Function 또한 모든 state에 대해 가장 커지게 된다. 이 말은 만약 어떤 state에서 누적보상이 크다면, Value function을 몰라도 Value function이 제일 큰 것을 고를 수 있다. 즉, q-function이 최대인 것을 골라야 최대의 value function을 고를 수 있다.

모든 가능한 policy에 대해서 그때그때 가장 좋은 policy에 따라 행동하는 것과 동일하다고 볼 수 있다.

Value-Policy-Action 과의 관계

$V^\pi(s) = \sum_{a ∈ A} \pi (a|s) * Q^\pi(a,s)$

$V^\pi(s)$ 는 어느 state일 때, 그 state가 가지는 누적 reward의 기댓값들이다.

$\pi(a | s)$는 어느 state일 때 어느 action을 취할지에 대한 조건부확률이다.

$Q^\pi(a,s)$ 는 어느 state에서 action을 취했을 때, 그 state가 가지는 누적 reward의 기댓값들이다.

따라서 Value Function을 가지려면

어느 state에서 action을 취했을 때 가지는 누적 reward들의 평균 // 어느 state일 때 이 action을 선택할 확률을 곱해주어야한다.

action을 선택할 확률에서 action을 취했을 때의 확률이 서로 곱해지니까 결국은 state 일 때 가지는 누적 reward들의 평균을 Value Function이라고 말할 수 있다.

Monte Carlo Method

TD Method

Bootstrapping

Model-based

Model-Free

www.secmem.org/blog/2019/12/15/RL-key-concepts/www.secmem.org/blog/2019/12/15/RL-key-concepts/

강화학습 핵심 개념 정리 (1)

강화학습 핵심 개념 정리 (1) Reinforcement Learning Key Concepts 이 시리즈의 목표는 강화학습을 잘 모르는 사람이 해당 분야의 전반적인 흐름을 파악하고 이 글을 토대로 세부적인 내용을 찾아볼 수 있�

www.secmem.org

저작자표시

'AI' 카테고리의 다른 글

DQN (Deep Q-Networks) (0)	2020.10.03
Off-Policy Control (0)	2020.09.24
RL : TD Method (0)	2020.09.06
RL : Monte Carlo Method (0)	2020.09.06
RL : Empirical Learning [Model 모를 때] (0)	2020.09.06

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

월곡동 로봇팔의 대학원일지

RL : RL 용어정리

Enviroment

Agent

State

Action

Reward

initial state

terminal state

Episode

Markov Property

$G_t$ function, 누적보상

Policy

Transition Probability

Value Function

Q-Function

Optimal Policy

Value-Policy-Action 과의 관계

Monte Carlo Method

TD Method

Bootstrapping

Model-based

Model-Free

'AI' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

RL : RL 용어정리

Enviroment

Agent

State

Action

Reward

initial state

terminal state

Episode

Markov Property

GtG_t function, 누적보상

Policy

Transition Probability

Value Function

Q-Function

Optimal Policy

Value-Policy-Action 과의 관계

Monte Carlo Method

TD Method

Bootstrapping

Model-based

Model-Free

'AI' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

$G_t$ function, 누적보상