일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 강화학습
- MAML
- Few-shot learning
- 파이썬 인터프리터 락
- 온폴리시
- 오프폴리시
- Meta Learning
- docker tensorboard
- 도커 텐서보드 연결
- n-step
- Concurrency Control
- Importance sampling
- Maximazation bias
- Double learning
- 전역 인터프리터 락
- 인터프리터 락
- Maximum entropy
- Actor-Critic
- Control variate
- Off-policy
- 지속적 개발
- Interpreter Lock
- Global Interpreter Lock
- Reinforcement Learning
- 통합 개발
- 병행성 제어
- Soft Actor-Critic
- Python Interpreter Lock
- 중요도 샘플링
- Tree backup
- Today
- Total
목록분류 전체보기 (20)
HakuCode na matata

Abstract TRPO는 샘플기반 제약수반 반복적 정책최적화 알고리즘 TRPO는 단조적 개선을 보장하는 알고리즘 Policy Gradient(정책 경사) 알고리즘과 유사하며 규모가 큰 비선형 정책최적화 문제에 효과적 엔지니어링적 측면에서 이론 전제와는 다소 오차가 있는 상황에서도 우수성 입증 Introduction 정책최적화 알고리즘 대분류 Policy Iteration(정책반복) Policy Gradient(정책경사) Derivative-free(비 미분최적화) → 구현, 이해 용이 → 선호 Policy Gradient 방법은 샘플복잡도가 낮은데도 불구하고 Derivative-free 방법보다 성능이 낮음 반면, 최근 Continuous gradient-based 방법은 지도학습과 강화학습에서 두각을..

Key Features SAC(Soft Actor-Critic)는 엔트로피 최대화 프레임워크 기반의 Off-policy Actor-Critic 알고리즘 SAC는 정책과 가치함수 근사를 기반으로 하는 Soft Policy Iteration알고리즘 SAC의 특징은 기존 RL 알고리즘들과 동일하게 보상의 기댓값을 최대화하면서 동시에 정보량이 적은(엔트로피가 높은) 정책을 구성하여 샘플의 다양성을 확보한다는 것 Background 실제 환경 적용에 있어서의 Model-free 알고리즘의 어려움 Model-free + On-policy 샘플 효율 저하(갱신 마다 샘플링 과정 필요) Model-free + Off-policy 연속적인 상태 및 행동 공간을 가진 과제에 대해 보이는 높은 샘플 복잡도 DDPG 샘플 효..

Abstract ‘메타러닝’의 목표 = 개별 과제들에 대해 소량의 데이터를 기반으로 효과적인 학습을 거듭하여 다수의 과제들에 대한 최적의 일반화 성능을 가진 파라미터 학습 메타러닝 알고리즘은 어떠한 모델에 대해서도 적용 가능한 메커니즘 Supervised-learning과 Reinforcement-learning에서 실험한 결과, 기존 SOTA와 유사하거나 상회하는 성능을 보임 Introduction 소량의 데이터를 기반(Few-shot)으로 다수의 과제(Multiple tasks)를 빠르게 학습(fast adaptation & fine-tune)하는 알고리즘을 구성하고자 함 상기 학습 메커니즘 구현 간 어려움 데이터 부족(Lack of Data) (High bias) Overfitting 가능성 높음 ..

GIL(Global Interpreter Lock)이란? GIL(Global Interpreter Lock, 전역 인터프리터 락)이란, 인터프리터가 소스 코드를 실행함에 있어서 스레드 동기화를 목적으로 일순간에 목표 스레드의 작업만을 수행하도록 이를 제외한 나머지 스레드들의 작업을 '락(Lock)'을 통해 중단시키는 행위를 말한다. GIL 배경 Python 참조 구현체 중 가장 많이 사용되는 것은 C 기반의 'CPython'이다. 당시 C에 포함되어있던 기존 라이브러리들은 thread safety(스레드 안전성, 병렬 작업에서의 무결성을 보장하는 속성)이 보장되지 못하였고, 이를 해결하기 위한 방법으로 채택된 것이 GIL이었다. GIL 채택 이유(GIL 장점) 그렇다면 "GIL이 아닌 다른 방식으로 제어..

CI/CD란? CI(Continuous Integration, 지속적 통합)은 팀 개발에 있어서 팀원 간 소스 충돌 방지용 디버깅 자동화 솔루션을 말한다. CD(Continuous Delivery or Continuous Development, 지속적 제공 및 지속적 개발)은 팀 개발에 있어서 배포를 자동화하기 위한 파이프라인 즉, 배포 자동화 솔루션을 말한다. 즉, CI/CD란 개발 및 운영팀의 'Integration hell(인테그레이션 헬, 팀 개발 간 모듈 통합의 어려움을 뜻하는 단어)'에 대한 솔루션으로서 개발 및 운영팀의 리소스 낭비를 최소화하고 고객에게 실시간으로 업데이트 된 서비스를 제공하기위해 새 소스 업데이트 간 기존 소스와의 충돌여부를 디버깅하고 리포지토리를 자동화하며 모니터링이 가능..

개념 및 배경 도커의 기본 시스템 구조(원리)를 기존에 가상화에 주로 사용되던 가상머신(VM)과 비교하여 도식화 한 것이다. 도커는 개별 파티션 구분에 기반한 별도 OS설치 없이 이미지 인스턴스화에 기반하여 보다 경량화된 모델로 다양한 환경을 구축할 수 있다는 것이 장점이다. 나의 환경은 Windows 10 - Ubuntu 20.04 - App으로 구성되어있고 Ubuntu상에서 Tensorboard를 실행하여 이를 Windows 10의 웹 브라우저에서 확인하고자 하였다. 도커 컨테이너 실행(포트포워딩) 위와 같은 구조에 따라 도커 이미지의 인스턴스인 도커 컨테이너를 직접적으로 Local OS인 Windows 10과 연결해주기 위해서는 포트포워딩이 필요하다. 따라서, 이를 해결하기위해 아래와 같은 명령으로..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. Verilog HDL이란? 단순 논리게이트(Logic gate)나 플립플롭(Flip-flop 또는 Latch)에서부터 통신용 모뎀, 멀티미디어 프로세서, 마이크로프로세서 등 디지털 시스템의 기능 및 회로구조를 표현하도록 개발된 하드웨어 기술언어로서 쉽고 간편하게 회로를 설계 및 검증할 수 있는 언어의 필요성에 따라 등장하였는데, 상향식 설계와 하향식 설계 모두 적용이 가능하며 트랜지스터 수준, 레지스터 전송수준, 행위수준 등 다양한 계층의 디지털 하드웨어 설계가 가능하다. HDL기반 시스템 IC 설계과정 1. 설계사양 결정(상세 명세서 작성) 2. 행위수준 모델링 및 검증(모델링 후, 전체기능 검증) 3. R..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「영벡터공간(Null space)」 영벡터공간(Null space, 이하 널공간)은 영벡터와의 선형결합으로 만들어 낼 수 있는 벡터공간집합을 말한다. 널공간 역시, 벡터의 덧셈연산과 스칼라곱연산에 대해 닫혀있다. 「해가 존재할 경우, 스팬(Span) 한다」 그렇다면 갑자기 널공간에 대해서 배우는 알아보는 이유는 무엇일까? 그 이유를 알기 위해서, 잠시 앞서 배운 내용들을 잠시 되짚어보자. 행렬 A의 역행렬(Inverse)이 존재하는 경우에는 유일 해(Unique solution)가 존재하거나 해가 존재하지 않는 경우이고, 역행렬이 존재하지 않는 경우에는 무수히 많은 해(Infinite solution)가 존재..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「공간(Space)과 벡터공간(Vector space)」 공간이란 '몇가지 특별한 속성과 부가적 구조를 갖는 집합'이다. 특히 이중에서도 우리가 살펴볼 벡터공간이란 '벡터의 합과 이들 벡터의 스칼라 곱에 대한 연산이 닫혀있는 집합'을 말하는데, 벡터공간의 예시는 다음과 같다. 벡터공간의 의의 앞서 배운 선형 연립방정식의 해를 벡터의 관점에서 바라보면 결국 '벡터공간'이다. 그간의 미지수의 개수와 방정식의 개수가 일치하는 경우(정사각행렬)에서의 가우스 소거법을 통해 구해진 해는 벡터에서 한 점, 그러니까 1개의 점에 대응하는 벡터 포인트(Vector point)를 의미하였다. 하지만, 미지수와 방정식의 개수가 ..

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「역행렬(Inverse matrix)이란?」 역행렬이란, 어떤 행렬 A의 좌, 우측에 곱하여 단위행렬을 만들어주는 행렬을 말한다. 또한, 역행렬은 이러한 이유로 '교환법칙'이 성립한다. 역행렬의 존재 모든 경우에 역행렬이 존재하지는 않는데, 이를 검사하기위해 사용하는 것이 '행렬식'이다. 행렬식(Determinant, 이하 D)의 결과가 '0'이 아닌 경우, 해당 행렬의 역행렬이 존재한다. 행렬식에 대한 자세한 내용은 추후에 다룰 예정이다. 역행렬의 개수 역행렬은 정사각행렬의 경우에 한해 1개, '유일 해'이다(1:1 대응). 이와 반대로 직사각행렬(미지수>방정식)의 경우, 무수히 많거나, 없을 수 있다(D=..