일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- Actor-Critic
- 오프폴리시
- Python Interpreter Lock
- Reinforcement Learning
- 전역 인터프리터 락
- 파이썬 인터프리터 락
- 인터프리터 락
- Interpreter Lock
- Control variate
- 온폴리시
- Tree backup
- 도커 텐서보드 연결
- 중요도 샘플링
- Meta Learning
- Few-shot learning
- Off-policy
- docker tensorboard
- 통합 개발
- Soft Actor-Critic
- Concurrency Control
- Global Interpreter Lock
- n-step
- Maximazation bias
- 병행성 제어
- MAML
- Double learning
- 강화학습
- Maximum entropy
- 지속적 개발
- Importance sampling
- Today
- Total
목록Machine Learning (10)
HakuCode na matata

Abstract TRPO는 샘플기반 제약수반 반복적 정책최적화 알고리즘 TRPO는 단조적 개선을 보장하는 알고리즘 Policy Gradient(정책 경사) 알고리즘과 유사하며 규모가 큰 비선형 정책최적화 문제에 효과적 엔지니어링적 측면에서 이론 전제와는 다소 오차가 있는 상황에서도 우수성 입증 Introduction 정책최적화 알고리즘 대분류 Policy Iteration(정책반복) Policy Gradient(정책경사) Derivative-free(비 미분최적화) → 구현, 이해 용이 → 선호 Policy Gradient 방법은 샘플복잡도가 낮은데도 불구하고 Derivative-free 방법보다 성능이 낮음 반면, 최근 Continuous gradient-based 방법은 지도학습과 강화학습에서 두각을..

Key Features SAC(Soft Actor-Critic)는 엔트로피 최대화 프레임워크 기반의 Off-policy Actor-Critic 알고리즘 SAC는 정책과 가치함수 근사를 기반으로 하는 Soft Policy Iteration알고리즘 SAC의 특징은 기존 RL 알고리즘들과 동일하게 보상의 기댓값을 최대화하면서 동시에 정보량이 적은(엔트로피가 높은) 정책을 구성하여 샘플의 다양성을 확보한다는 것 Background 실제 환경 적용에 있어서의 Model-free 알고리즘의 어려움 Model-free + On-policy 샘플 효율 저하(갱신 마다 샘플링 과정 필요) Model-free + Off-policy 연속적인 상태 및 행동 공간을 가진 과제에 대해 보이는 높은 샘플 복잡도 DDPG 샘플 효..

Abstract ‘메타러닝’의 목표 = 개별 과제들에 대해 소량의 데이터를 기반으로 효과적인 학습을 거듭하여 다수의 과제들에 대한 최적의 일반화 성능을 가진 파라미터 학습 메타러닝 알고리즘은 어떠한 모델에 대해서도 적용 가능한 메커니즘 Supervised-learning과 Reinforcement-learning에서 실험한 결과, 기존 SOTA와 유사하거나 상회하는 성능을 보임 Introduction 소량의 데이터를 기반(Few-shot)으로 다수의 과제(Multiple tasks)를 빠르게 학습(fast adaptation & fine-tune)하는 알고리즘을 구성하고자 함 상기 학습 메커니즘 구현 간 어려움 데이터 부족(Lack of Data) (High bias) Overfitting 가능성 높음 ..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「n-step Bootstrapping(n단계 부트스트래핑)」 이번 포스트에서 살펴볼 개념은 'n-step Bootstrapping(n단계 부트스트래핑, 이하 n-step)'이다. n-step은 기존 TD 방식이 바로 다음 미래(one-step)만을 고려함으로써 가지는 제약을 해결하기 위해, n단계 미래까지 고려하는 방법이다. 이것은 하나의 알고리즘이 아니라 존재하는 알고리즘(TD)에서 추가할 수 있는 특성과 같다고 생각하면 편하다. 이미 눈치챈 사람도 있겠지만, n-step TD 방식은 여러 단계를 고려하는 방법이라는 점에서 모든 단계를 고려하는 MC와도 공통점이 있다. 하지만, MC와의 차이점은 n-ste..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Temporal-Diffence Learning(TD학습)」 'Temporal-Difference Learning(이하 TD학습)'은 강화학습에서의 가장 핵심적인 아이디어라고 말할 수 있다. TD학습은 이전 포스트들에서 배운 DP와 MC의 장점들을 혼합하여 만든 방법이다. 아래의 표를 보자. 표에서 1번째 컬럼은 "환경에 대한 정보에 대해 완전히 알고 있는가?"에 대한 속성이다. 이전에 설명했다시피, DP는 환경에 대한 완전한 정보를 가지고 평가를 통해 계획을 세우는 'Planning'이라고 하였다. 반면, MC는 환경에 대한 불완전한 정보를 가지고 예측을 통해 학습하는 'Learning'이라고 하였다. T..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Monte Carlo Method(몬테카를로 방법)」 이번 포스트의 주제는 'Monte Carlo Method(몬테카를로 방법, 이하 MC)'이다. 앞선 포스트에서 살펴보았듯, 강화학습의 문제를 제공되는 정보의 양을 기준으로 그 해결법에 대해 2가지 분류를 했었다. - 환경정보에 대해 완벽히 안다(Model Based) = Dynamic Programming(DP) = Planning - 환경정보에 대해 일부만 안다(Model Free) = Reinforcement Learning(RL) = Learning 앞서 알아본 DP는 정보를 온전히 다 안다는 전제하에 계획을 세우는 계획법(Planning)으로서 분..

G포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Dynamic Programming(동적계획법)」 강화학습(이하 RL)의 해결방법에는 환경에 대한 정보를 얼마나 가지고 있느냐에 따라 구분할 수 있다. - 환경정보에 대해 완벽히 안다(Model Based) = Dynamic Programming(DP) = Planning - 환경정보에 대해 일부만 안다(Model Free) = Reinforcement Learning(RL) = Learning 'Dynamic Programming(동적계획법, 이하 DP)'은 MDP속성을 만족하며 환경에 대해 완벽한 정보가 주어진다는 전제하에 최적화 정책을 계산할 수 있는 알고리즘을 말한다. 환경에 대한 정보를 습득하며 ..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Finite Markov Decision Process 란?」 Finite Markov Decision Process(유한 마르코프 결정 과정)란, 말 뜻에서 알 수 있듯 유한한 환경내에서의 Markov Decision Process를 말한다. MDP를 설명하기위해서 아래와 같은 절차를 밟아나가도록 하겠다. Markov Process(이하 MP) → Markov Reward Process(이하 MRP) → Markov Decision Process(이하 MDP) 유한 마르코프 결정 과정은 고전적인 절차적 결정 문제의 정석이며, 강화학습 문제를 서술하는데 효과적이다. 또한, 즉각보상 뿐만 아니라 다음 상태와 ..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Multi-armed Bandits 문제란?」 'Multi-armed Bandits(이하 MAB)'문제는 확률이론에서 등장하는 문제로 카지노 슬롯머신을 통한 도박을 진행함에 있어서, 어떻게 하면 최대 수익(보상)을 얻을 수 있는가에 대한 문제이다. 이는 강화학습과 목표와 문제 해결이 유사하기 때문에, 강화학습 알고리즘을 공부할 때 등장하는 고전적인 문제이다. 이번 장에서는 이러한 MAB문제를 통해서 강화학습의 여러 기초 개념에 대해 알아볼 것이다. 알아볼 개념들은 다음과 같다. ① 탐험-이용(Exploration & Exploitation) 알고리즘 ② 증분식을 통한 학습 ③ 바람직한 초기 값 설정 ④ 행동..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 이번 장에서는 강화학습의 개요에 대해 다루어 볼 예정이다. 강화학습의 정의와 핵심 및 구성요소등등 전반적으로 강화학습의 개론정도이고, 구체적인 부분은 이후 이어지는 장에서 살펴보도록 한다. 「강화학습(Reinforcement Learning)이란?」 강화학습(Reinforcement Learning)은 개체가 환경과 상호작용하며 지도 없이 스스로 학습하는 방법을 모티브로 한 기계학습(Machine Learning)을 말한다. 강화학습은 행동주의 심리학 이론들 가운데 하나인 '조작적 조건화'를 기반으로 만들어진 학습법이다. 해당 이론에서 '스키너의 쥐 실험'이 유명한데, 상자 속의 쥐가 실험자가 의도한 행동을 ..