일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Tree backup
- 병행성 제어
- n-step
- Python Interpreter Lock
- Maximum entropy
- Concurrency Control
- Double learning
- 도커 텐서보드 연결
- Global Interpreter Lock
- Actor-Critic
- 파이썬 인터프리터 락
- Interpreter Lock
- 오프폴리시
- MAML
- 통합 개발
- Soft Actor-Critic
- 인터프리터 락
- 지속적 개발
- 중요도 샘플링
- 강화학습
- Control variate
- Few-shot learning
- Importance sampling
- docker tensorboard
- Off-policy
- Maximazation bias
- 온폴리시
- Meta Learning
- 전역 인터프리터 락
- Reinforcement Learning
- Today
- Total
목록분류 전체보기 (20)
HakuCode na matata

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「LU 분해(Fatorization, Composition)이란?」 LU 분해의 정의는 행렬을 하삼각행렬 L과 상삼각행렬 U의 곱으로 표현하는 수치해석학의 기술이다. 한마디로 '행렬의 인수분해'를 말한다. 앞선 포스트부터 우리가 집중하여 알아보고 있는 1차 연립방정식의 경우에서는 풀이를 수월하게 하기 위해 행렬로 변환하였을 때, 각 방정식을 소거할 수 있는 인수들의 행렬 L(Lower matrix)과 소거되어 결과로 표현된 행렬 U(Upper matrix)의 인수분해형태를 ‘LU분해’라고 부른다. 'L'은 단위행렬에 각 방정식 간의 소거 내용이 원소로 포함된 형태의 행렬이며 '원소행렬'이라고 부른다. 하삼각 ..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「1차 연립방정식의 풀이」 1차 연립방정식의 풀이는 '해(Solution)의 개수'를 중심으로 나뉜다. 1. 해가 없는 경우(No solution case) 2. 해가 무한한 경우(Infinite solution case) 풀이의 형식 1. 행 방향 벡터 비교 1-1. 해가 없는 경우 = 두 방정식(직선 혹은 평면)이 평행한다. 1-2. 해가 무한한 경우 = 두 방정식(직선 혹은 평면)이 겹친다. 2. 열 방향 벡터 비교 2-1. 해가 없는 경우 = 평행, 동시 접점 존재하지 않는다 2-2. 해가 무한한 경우 = 같은 공간의 해 존재한다. 「가우스 소거연산 순서」 1. 1번째 식 - 2번째 식(이때 제일 왼쪽..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「선형성(Linearity)이란?」 선형성의 정의는 '직선처럼 똑바른 도형, 또는 그와 비슷한 성질을 갖는 대상'을 말한다. 이는, 대수학에서 '직선의 성직을 가지는 식 또는 연산'을 의미한다. 이러한 선형성을 갖기위해서는 다음과 같은 조건들을 모두 만족해야한다. 「선형성의 판별조건」 1. 중첩의 원리(Superposition) 2. 동질의 원리(Homogeneity) 3. 원점 통과 위와 같은 조건들을 모두 만족해야 '선형성'을 갖는다고 할 수 있다. 「행렬(Matrix)이란?」 행렬은 '수 또는 다항식 등을 직사각형 모양으로 배열한 것'으로, 이때 가로줄을 행(Row), 세로줄을 열(Column)이라고 부..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「n-step Bootstrapping(n단계 부트스트래핑)」 이번 포스트에서 살펴볼 개념은 'n-step Bootstrapping(n단계 부트스트래핑, 이하 n-step)'이다. n-step은 기존 TD 방식이 바로 다음 미래(one-step)만을 고려함으로써 가지는 제약을 해결하기 위해, n단계 미래까지 고려하는 방법이다. 이것은 하나의 알고리즘이 아니라 존재하는 알고리즘(TD)에서 추가할 수 있는 특성과 같다고 생각하면 편하다. 이미 눈치챈 사람도 있겠지만, n-step TD 방식은 여러 단계를 고려하는 방법이라는 점에서 모든 단계를 고려하는 MC와도 공통점이 있다. 하지만, MC와의 차이점은 n-ste..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Temporal-Diffence Learning(TD학습)」 'Temporal-Difference Learning(이하 TD학습)'은 강화학습에서의 가장 핵심적인 아이디어라고 말할 수 있다. TD학습은 이전 포스트들에서 배운 DP와 MC의 장점들을 혼합하여 만든 방법이다. 아래의 표를 보자. 표에서 1번째 컬럼은 "환경에 대한 정보에 대해 완전히 알고 있는가?"에 대한 속성이다. 이전에 설명했다시피, DP는 환경에 대한 완전한 정보를 가지고 평가를 통해 계획을 세우는 'Planning'이라고 하였다. 반면, MC는 환경에 대한 불완전한 정보를 가지고 예측을 통해 학습하는 'Learning'이라고 하였다. T..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Monte Carlo Method(몬테카를로 방법)」 이번 포스트의 주제는 'Monte Carlo Method(몬테카를로 방법, 이하 MC)'이다. 앞선 포스트에서 살펴보았듯, 강화학습의 문제를 제공되는 정보의 양을 기준으로 그 해결법에 대해 2가지 분류를 했었다. - 환경정보에 대해 완벽히 안다(Model Based) = Dynamic Programming(DP) = Planning - 환경정보에 대해 일부만 안다(Model Free) = Reinforcement Learning(RL) = Learning 앞서 알아본 DP는 정보를 온전히 다 안다는 전제하에 계획을 세우는 계획법(Planning)으로서 분..

G포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Dynamic Programming(동적계획법)」 강화학습(이하 RL)의 해결방법에는 환경에 대한 정보를 얼마나 가지고 있느냐에 따라 구분할 수 있다. - 환경정보에 대해 완벽히 안다(Model Based) = Dynamic Programming(DP) = Planning - 환경정보에 대해 일부만 안다(Model Free) = Reinforcement Learning(RL) = Learning 'Dynamic Programming(동적계획법, 이하 DP)'은 MDP속성을 만족하며 환경에 대해 완벽한 정보가 주어진다는 전제하에 최적화 정책을 계산할 수 있는 알고리즘을 말한다. 환경에 대한 정보를 습득하며 ..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Finite Markov Decision Process 란?」 Finite Markov Decision Process(유한 마르코프 결정 과정)란, 말 뜻에서 알 수 있듯 유한한 환경내에서의 Markov Decision Process를 말한다. MDP를 설명하기위해서 아래와 같은 절차를 밟아나가도록 하겠다. Markov Process(이하 MP) → Markov Reward Process(이하 MRP) → Markov Decision Process(이하 MDP) 유한 마르코프 결정 과정은 고전적인 절차적 결정 문제의 정석이며, 강화학습 문제를 서술하는데 효과적이다. 또한, 즉각보상 뿐만 아니라 다음 상태와 ..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Multi-armed Bandits 문제란?」 'Multi-armed Bandits(이하 MAB)'문제는 확률이론에서 등장하는 문제로 카지노 슬롯머신을 통한 도박을 진행함에 있어서, 어떻게 하면 최대 수익(보상)을 얻을 수 있는가에 대한 문제이다. 이는 강화학습과 목표와 문제 해결이 유사하기 때문에, 강화학습 알고리즘을 공부할 때 등장하는 고전적인 문제이다. 이번 장에서는 이러한 MAB문제를 통해서 강화학습의 여러 기초 개념에 대해 알아볼 것이다. 알아볼 개념들은 다음과 같다. ① 탐험-이용(Exploration & Exploitation) 알고리즘 ② 증분식을 통한 학습 ③ 바람직한 초기 값 설정 ④ 행동..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 이번 장에서는 강화학습의 개요에 대해 다루어 볼 예정이다. 강화학습의 정의와 핵심 및 구성요소등등 전반적으로 강화학습의 개론정도이고, 구체적인 부분은 이후 이어지는 장에서 살펴보도록 한다. 「강화학습(Reinforcement Learning)이란?」 강화학습(Reinforcement Learning)은 개체가 환경과 상호작용하며 지도 없이 스스로 학습하는 방법을 모티브로 한 기계학습(Machine Learning)을 말한다. 강화학습은 행동주의 심리학 이론들 가운데 하나인 '조작적 조건화'를 기반으로 만들어진 학습법이다. 해당 이론에서 '스키너의 쥐 실험'이 유명한데, 상자 속의 쥐가 실험자가 의도한 행동을 ..