일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- Few-shot learning
- Actor-Critic
- Meta Learning
- Maximum entropy
- Control variate
- n-step
- 지속적 개발
- Tree backup
- 파이썬 인터프리터 락
- 강화학습
- docker tensorboard
- Global Interpreter Lock
- Python Interpreter Lock
- Reinforcement Learning
- 오프폴리시
- 통합 개발
- 중요도 샘플링
- Importance sampling
- 인터프리터 락
- MAML
- 전역 인터프리터 락
- Soft Actor-Critic
- 온폴리시
- 도커 텐서보드 연결
- Double learning
- 병행성 제어
- Concurrency Control
- Maximazation bias
- Interpreter Lock
- Off-policy
Archives
- Today
- Total
목록Double learning (1)
HakuCode na matata

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Temporal-Diffence Learning(TD학습)」 'Temporal-Difference Learning(이하 TD학습)'은 강화학습에서의 가장 핵심적인 아이디어라고 말할 수 있다. TD학습은 이전 포스트들에서 배운 DP와 MC의 장점들을 혼합하여 만든 방법이다. 아래의 표를 보자. 표에서 1번째 컬럼은 "환경에 대한 정보에 대해 완전히 알고 있는가?"에 대한 속성이다. 이전에 설명했다시피, DP는 환경에 대한 완전한 정보를 가지고 평가를 통해 계획을 세우는 'Planning'이라고 하였다. 반면, MC는 환경에 대한 불완전한 정보를 가지고 예측을 통해 학습하는 'Learning'이라고 하였다. T..
Machine Learning/Reinforcement Learning
2020. 10. 13. 12:31