일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 파이썬 인터프리터 락
- Control variate
- n-step
- Global Interpreter Lock
- 도커 텐서보드 연결
- Actor-Critic
- Maximum entropy
- Importance sampling
- 통합 개발
- docker tensorboard
- 병행성 제어
- 지속적 개발
- 전역 인터프리터 락
- Tree backup
- Off-policy
- Python Interpreter Lock
- Concurrency Control
- 온폴리시
- Few-shot learning
- 강화학습
- 중요도 샘플링
- Soft Actor-Critic
- Maximazation bias
- Meta Learning
- 인터프리터 락
- Interpreter Lock
- Double learning
- 오프폴리시
- MAML
- Reinforcement Learning
Archives
- Today
- Total
목록Double learning (1)
HakuCode na matata

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Temporal-Diffence Learning(TD학습)」 'Temporal-Difference Learning(이하 TD학습)'은 강화학습에서의 가장 핵심적인 아이디어라고 말할 수 있다. TD학습은 이전 포스트들에서 배운 DP와 MC의 장점들을 혼합하여 만든 방법이다. 아래의 표를 보자. 표에서 1번째 컬럼은 "환경에 대한 정보에 대해 완전히 알고 있는가?"에 대한 속성이다. 이전에 설명했다시피, DP는 환경에 대한 완전한 정보를 가지고 평가를 통해 계획을 세우는 'Planning'이라고 하였다. 반면, MC는 환경에 대한 불완전한 정보를 가지고 예측을 통해 학습하는 'Learning'이라고 하였다. T..
Machine Learning/Reinforcement Learning
2020. 10. 13. 12:31