일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- Double learning
- Python Interpreter Lock
- 온폴리시
- MAML
- Global Interpreter Lock
- Concurrency Control
- Maximazation bias
- Soft Actor-Critic
- 오프폴리시
- 중요도 샘플링
- Actor-Critic
- docker tensorboard
- 인터프리터 락
- Interpreter Lock
- n-step
- Few-shot learning
- Tree backup
- Reinforcement Learning
- 전역 인터프리터 락
- 지속적 개발
- 병행성 제어
- Control variate
- Off-policy
- Maximum entropy
- Meta Learning
- 강화학습
- 통합 개발
- Importance sampling
- 도커 텐서보드 연결
- 파이썬 인터프리터 락
Archives
- Today
- Total
목록n-step (1)
HakuCode na matata

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「n-step Bootstrapping(n단계 부트스트래핑)」 이번 포스트에서 살펴볼 개념은 'n-step Bootstrapping(n단계 부트스트래핑, 이하 n-step)'이다. n-step은 기존 TD 방식이 바로 다음 미래(one-step)만을 고려함으로써 가지는 제약을 해결하기 위해, n단계 미래까지 고려하는 방법이다. 이것은 하나의 알고리즘이 아니라 존재하는 알고리즘(TD)에서 추가할 수 있는 특성과 같다고 생각하면 편하다. 이미 눈치챈 사람도 있겠지만, n-step TD 방식은 여러 단계를 고려하는 방법이라는 점에서 모든 단계를 고려하는 MC와도 공통점이 있다. 하지만, MC와의 차이점은 n-ste..
Machine Learning/Reinforcement Learning
2020. 10. 24. 15:20