Enviroment
agent 가 속한 환경. state와 reward를 내릴 수 있는 기준의 참고문헌. 게임규칙, (S,A,R) 모든 것이 Enviroment 의 요소다.
Agent
state에 따라 어떤 action을 내릴지 판단을 내리는 주체
State
S. 현재 시점에서 상황이 어떤지 나타내는 값의 집합
Action
A. Agent가 선택하는 선택지를 말한다. Reward를 얻기 위해 하는 선택지다.
Reward
R. 어떤 action을 취했을 때, 그 action 에 대한 보상이다. 이는 한 action에만 해당한다.
initial state
Agent가 Enviroment와 처음 상호작용할 때의 상태를 뜻한다.
terminal state
더이상의 action이 불가능한 상태를 뜻한다.
Episode
initial state 부터 terminal state 까지 Agent 가 거친 sequence들을 말한다.
Markov Property
현재 상태만 참조하면 항상 필요한 모든 정보를 알 수 있다.
Gt function, 누적보상
Gtdef=rt+γrt+1+γ2rt+2+...=T∑i=tγi−tri=rt+γGt+1
t번째 state 이후의 누적 reward를 나타내는 함수이다.
Policy
Agent가 판단하는 방식이다. 또한 State와 Action 관계를 나타낸다. 어느 state일 때 이 action을 선택할 확률.
정책을 수학적으로 나타내면 상태에 따른 행동의 조건부 확률, 즉 P(action|state) == π(a|s)가 된다.
또 현재 학습중인 정책(target policy)은 π 로 쓰고 과거에 데이터를 수집할 때 취했던 정책(behavior poilcy)은 μ 로 쓰는 것이 관례입니다. 정책 중 가장 좋은 것을 optimal policy라고 부르고 π∗ 로 나타냅니다.
여기서 greedy policy 개념도 나온다.
Transition Probability
어느 State에서 action을 선택했을 때, state s' 으로 갈 확률
Value Function
Vπ(s)def=Eπ[Gt|St=s]
$ E_\pi[G_t |S_t=s] = E_{a\sim\pi(\cdot|s)}E_{s', r_t\sim p(\cdot|s,a)}[r_t + \gamma G_{t+1}] = \sum_a \pi(a|s)\sum_{s', r_t}p(s',r_t|s, a) [r_t + \gamma v_\pi(s')] $
state에 대한 value function이다.
어떤 state에서 action을 취했을 때 --> 특정 reward를 고 s′으로 갈 확률의 평균을 $$p(s',r_t|s, a)$$이라 한다.
state s에서 action을 한 policy를 따를 경우, 누적보상 Gt의 기댓값을 그 상태 s의 value function이라고 한다.
state 일 때 가지는 누적 reward (return)들의 평균.
Q-Function
Qπ(s,a)def=Eπ[Gt|St=s,At=a]=Es′,r∼p(⋅|s,a)[r+γEa′∼π[Q(s′,a′)]]
state, action 을 짝을 지어 Q-function을 정의한다.
주어진 state에서 action을 한 후, 얻을 수 있는 누적보상, G의 기댓값이 된다. 어느 state에서 action을 취했을 때 가지는 누적 reward들의 평균.
Optimal Policy
누적보상의 기댓값이 가장 큰 policy를 optimal policy라고 부른다.
이를 만족하면, Value Function 또한 모든 state에 대해 가장 커지게 된다. 이 말은 만약 어떤 state에서 누적보상이 크다면, Value function을 몰라도 Value function이 제일 큰 것을 고를 수 있다. 즉, q-function이 최대인 것을 골라야 최대의 value function을 고를 수 있다.
모든 가능한 policy에 대해서 그때그때 가장 좋은 policy에 따라 행동하는 것과 동일하다고 볼 수 있다.
Value-Policy-Action 과의 관계
Vπ(s)=∑a∈Aπ(a|s)∗Qπ(a,s)
Vπ(s) 는 어느 state일 때, 그 state가 가지는 누적 reward의 기댓값들이다.
$\pi(a | s)$는 어느 state일 때 어느 action을 취할지에 대한 조건부확률이다.
Qπ(a,s) 는 어느 state에서 action을 취했을 때, 그 state가 가지는 누적 reward의 기댓값들이다.
따라서 Value Function을 가지려면
어느 state에서 action을 취했을 때 가지는 누적 reward들의 평균 // 어느 state일 때 이 action을 선택할 확률을 곱해주어야한다.
action을 선택할 확률에서 action을 취했을 때의 확률이 서로 곱해지니까 결국은 state 일 때 가지는 누적 reward들의 평균을 Value Function이라고 말할 수 있다.
Monte Carlo Method
TD Method
Bootstrapping
Model-based
Model-Free
www.secmem.org/blog/2019/12/15/RL-key-concepts/www.secmem.org/blog/2019/12/15/RL-key-concepts/
강화학습 핵심 개념 정리 (1)
강화학습 핵심 개념 정리 (1) Reinforcement Learning Key Concepts 이 시리즈의 목표는 강화학습을 잘 모르는 사람이 해당 분야의 전반적인 흐름을 파악하고 이 글을 토대로 세부적인 내용을 찾아볼 수 있�
www.secmem.org
'AI' 카테고리의 다른 글
DQN (Deep Q-Networks) (0) | 2020.10.03 |
---|---|
Off-Policy Control (0) | 2020.09.24 |
RL : TD Method (0) | 2020.09.06 |
RL : Monte Carlo Method (0) | 2020.09.06 |
RL : Empirical Learning [Model 모를 때] (0) | 2020.09.06 |
댓글