일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 지속적 개발
- Reinforcement Learning
- 병행성 제어
- Control variate
- Global Interpreter Lock
- 파이썬 인터프리터 락
- Maximazation bias
- docker tensorboard
- MAML
- Maximum entropy
- Tree backup
- Importance sampling
- 인터프리터 락
- Interpreter Lock
- 전역 인터프리터 락
- 온폴리시
- Meta Learning
- Double learning
- 도커 텐서보드 연결
- Concurrency Control
- Few-shot learning
- Off-policy
- 오프폴리시
- Python Interpreter Lock
- n-step
- 중요도 샘플링
- Soft Actor-Critic
- 통합 개발
- Actor-Critic
- 강화학습
Archives
- Today
- Total
목록Double learning (1)
HakuCode na matata

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Temporal-Diffence Learning(TD학습)」 'Temporal-Difference Learning(이하 TD학습)'은 강화학습에서의 가장 핵심적인 아이디어라고 말할 수 있다. TD학습은 이전 포스트들에서 배운 DP와 MC의 장점들을 혼합하여 만든 방법이다. 아래의 표를 보자. 표에서 1번째 컬럼은 "환경에 대한 정보에 대해 완전히 알고 있는가?"에 대한 속성이다. 이전에 설명했다시피, DP는 환경에 대한 완전한 정보를 가지고 평가를 통해 계획을 세우는 'Planning'이라고 하였다. 반면, MC는 환경에 대한 불완전한 정보를 가지고 예측을 통해 학습하는 'Learning'이라고 하였다. T..
Machine Learning/Reinforcement Learning
2020. 10. 13. 12:31