본문 바로가기

mambo's coding note346

RL : Empirical Learning [Model 모를 때] Empirical Learning : Model을 모를 때 우리가 앞서서 표현한 Bellman Equation은 다음과 같다. 단순히 여러번의 반복적인 작업을 진행했을 때, 그 상태에서 최적의 단계를 정하는 것이 바로 Bellman Equation 이었다. 하지만 Bellman Equation의 단점이 존재한다. Model (Reward Function, Trasnsition Probability Function)을 알아야한다. 최적의 지점을 찾았다면, 방향 선택에 대해서 확률은 최적의 지점에 대해서는 1, 아닌 지점에서는 0이기 때문에 반복된 작업이 이뤄질수록 항상 같은 선택만 할 것이다. 따라서 Model을 모를 경우, Bellman Equation 같은 경우의 단점을 없애기 위해, 방향 선택에 임의.. 2020. 9. 6.
RL : Dynaimc Planning [Model 알고있을 때] 앞서서 우리는 Dynamic Programming이 무엇인지에 대해 알고 있다. 2020/09/06 - [AI/RL] - RL : Dynamic Programming RL : Dynamic Programming 출처 : velog.io/@cyranocoding/%EB%8F%99%EC%A0%81-%EA%B3%84%ED%9A%8D%EB%B2%95Dynamic-Programming%EA%B3%BC-%ED%83%90%EC%9A%95%EB%B2%95Greedy-Algorithm-3yjyoohia5 동적 계획법(Dynamic Programming)과 탐.. mambo-coding-note.tistory.com next-state-value func.으로 present-state-value func.을 구하는 것을 .. 2020. 9. 6.
RL : Value Function & Model 이전 포스팅에서는 강화학습의 Element들을 살펴보고, 이들의 정의와 서로의 관계들을 포스팅하였다. 이번 포스팅에서는 가치를 정하는 Value Function과 실제로 agent가 행해야 할 방향과 보상을 어느정도로 할 것인지를 나타내는 Model에 대해 알아볼 것이다. Value Function 앞에서 Return은 어떤 policy들의 집합을 담당하는 한 의사결정단계의 가치를 평가하는 지표로 쓰인다고 했다. 그럼, 각 state의 가치는 어떻게 판단 할 수 있을까? 어떤 상태의 가치를 나타내기 위해 Value Function이라는 것을 사용한다. Value Function은 순전히 Reward를 계산하는 방법이다. Value Function은 V, Q 두 종류가 있다. 1. State-Value F.. 2020. 9. 6.
RL : Reinforcement Learning Element 이전 포스팅에서는 강화학습의 간단한 개념들을 압축해서 설명해놓았다. 지금 포스팅에서는 강화학습에서 중요한 Element들에 대해서 자세하게 정의와 관계들을 정리할 것이다. Markov Decision Process 위에서 MDP에 대한 내용이 굉장히 많이 나온다. 애초에 강화학습은 MDP의 구성요소를 차용한 것이다. MDP 정의 우선 Markov Decision Process라고 하는것은 어떤 Agent의 의사결정 과정을 확률적인 모델 혹은 결정된 모델을 이용하여 모델링하는데 사용된다. 마르코프 결정 과정(MDP, Markov Decision Process)는 의사결정 과정을 모델링하는 수학적인 틀을 제공한다. 이 때 의사결정의 결과는 의사결정자의 결정에도 좌우되지만, 어느 정도 임의적으로 주어진다. 마.. 2020. 9. 6.
RL : Dynamic Programming Dynamic Programming 정의 시간에 따라 변하는 대상을 여러 개의 process로 나누어 계획하는 것을 말한다. “전체 문제를 작은 문제로 단순화한 다음 점화식으로 만들어 재귀적인 구조를 활용해서 전체 문제를 해결하는 방식” 전체 문제를 작은 문제로 단순화한다. -> 부분 문제를 정의한다. 재귀적인 구조를 활용할 수 있는 점화식을 만든다. -> 점화식을 만든다. 작은 문제를 해결한 방법으로 전체 문제를 해결한다. -> 문제를 해결한다. 조건 Overlapping Subproblem란, 어떤 문제가 여러 개의 부분 문제로 나뉘는 문제를 말한다. 이는 위의 Dynamic Programming의 정의에서 이미 다룬 내용이다. Optimal Substructure란, 어떤 문제의 최선의 해결책이 그.. 2020. 9. 6.
Ai : Transfer Learning mangastorytelling.tistory.com/entry/ITFIND-%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5-%EC%A0%84%EC%9D%B4%ED%95%99%EC%8A%B5Transfer-Learning%EA%B3%BC-%EC%9D%91%EC%9A%A9-%EB%B6%84%EC%95%BC-%EB%8F%99%ED%96%A5 2020. 8. 30.
RL : Reinforcement Learning 기본 개념 Reinforcement Learning이 어디에 적용되고 있는지 간략하게 알아보았었다. 2020/08/30 - [AI/RL] - RL : Reinforcement Learning 사례 RL : Reinforcement Learning 사례 강화학습은 관찰, 행동, 보상 이렇게 3가지 스텝으로 알고리즘이 동작한다. 가장 보상이 큰 쪽으로 행동을 실행하도록 만들어진 알고리즘인 것이다. 이를 이용해서 정말 많은 분야에서 현재 적�� mambo-coding-note.tistory.com RL의 성능을 좌지우지 하는 것은 결국 어떤 action을 취할지에 대한 의사결정이다. 따라서 우리는 의사결정 방법 중 하나인 Markov Decision Process, MDP 라는 것에 대해 알아볼 것 이다. RL의 Mot.. 2020. 8. 30.
RL : Reinforcement Learning 사례 강화학습은 관찰, 행동, 보상 이렇게 3가지 스텝으로 알고리즘이 동작한다. 가장 보상이 큰 쪽으로 행동을 실행하도록 만들어진 알고리즘인 것이다. 이를 이용해서 정말 많은 분야에서 현재 적용되고 있다. Game 알파고 & 알파고 제로 & 알파제로 흔히 아는 알파고이다. 알파고는 16만개의 기보를 학습하면서, 학습한 결과를 가지고 실제로 이세돌과의 대결에서 4:1로 불계승을 거두었다. 하지만, 이세돌에게 진 것도, 이세돌이 놓은 수가 알파고에게는 없는 데이터였기 때문에, 알파고는 없는 데이터에 대한 정보를 가지고 있지 못했고, 제대로 성능이 나오지 못해 패했다. 이를 DeepMind는 캐치하고 실제로 알파고 보다 더 좋은 알파고 제로를 선보인다. 구 알파고에 비해, 알파고 제로는 인간이 사전에 만들어놓은 데.. 2020. 8. 30.
Ai : Meta Learning 흔히 우리는 metadata, 메타데이터 라는 말을 쓰곤 한다. 여기서 말하는 metadata는 데이터에 대한 데이터를 의미한다. 이게 무슨말인지 밑에서 설명하겠다. 인류 최초의 메타데이터는 도서관의 서적 관련 정보를 정리해놓은 책이다. 이 책을 보면, 저자, 만든 날짜, 책의 수량 등등 각각 책에 관련된 정보가 적혀져 있는 정보가 모인 책이다. 우리가 흔히 쓰는 metadata를 보면, 데이터에 관한 정보가 담겨져 있는 구조화된 데이터이며, 다른 데이터를 설명해주는 데이터이다. 어떤 데이터를 분석, 분류하기 위해 만들어진 데이터라고 보면 된다. 왜 Meta Learning을 해야하는가? Meta Learninig이 왜 중요한가? supervised learning일 때를 가정하면, labeling 되어.. 2020. 8. 28.
Ai : Few shot Learning Few Shot Learning은 적은 데이터를 학습하더라도 좋은 성능을 내도록 하는 학습방법이다. 이제 이 획기적인 방법에 대해서 포스팅을 할 예정이다. 왜 Few Shot Learning을 해야하는가? 우리 인간은 적은 데이터를 학습하더라도, 실제로 적은 데이터 기반으로 문제를 풀 수 있다. 하지만, 기계는 인간처럼 소량의 데이터만으로도 놀라운 학습 능력을 갖출 수는 없을까? 이에 대한 답을 내는 것이 바로 Few Shot Learning 이다. Few Shot Learning은 meta learning을 기반으로 하는 학습방법이다. 2020/08/28 - [AI] - Ai : Meta Learning Ai : Meta Learning 흔히 우리는 metadata, 메타데이터 라는 말을 쓰곤 한다. .. 2020. 8. 28.
AI : Continual Learning 우리 인간은 갓난아기 때 부터 학습이 이루어진다. 그리고 죽기 직전까지 학습이 계속 이루어진다. 인간은 학습을 계속하면서 물론 까먹긴 하지만, 어느정도 지식의 gap이 그렇게 차이가 나지 않는다. 즉, 인간은 시간이 흐른다고 예전에 배웠던 것을 잘 까먹지는 않는다. 예전에 초등학교 때, 젓가락질을 배운 것을 우리는 지금도 까먹지 않고 죽기 직전까지 잘 쓰지 않는가? 우리는 지금 잘 쓰고 있는 인공지능, 딥러닝 모델이 인간과 비슷하게 한 번 학습한 것은 까먹지 않도록 알고리즘을 짜서 성능이 좋은 모델을 만들고자 하며, 이러한 해답을 찾는 것이 Continual Learning 이다. 왜 Continual Learning ?? 이처럼 사람의 학습을 표방하여 만든 Model들도 그러면 좋으련만... 기존의 데.. 2020. 8. 27.
AI : Self Supervised Learning 우리는 머신러닝 기법 중에 크게 두 가지로 나뉜다. Supervised Learning Un-Supervised Learning Supervised Learning 은 labeling이 이미 되어있는 data들을 학습시키는 것을 말한다. Un-Supervised Learning labeling이 안되어있는 data들을 학습시키는 것을 말한다. 우리는 Supervised Learning이 성능이 좋은 것을 알지만, Labeling을 하는 것도 사람의 노동력이 필요하기 때문에, 비용이 많이 든다. 그리고 labeling data들이 모두 맞다고 할 수는 없다. 따라서 우리는 labeling 할 필요가 없는 Un-Supervised Learning을 선호한다. 하지만 우리는 여기서 물음을 던질 수 있다. "l.. 2020. 8. 27.