GPU 서버에 Konlpy를 설치하면서 겪었던 과정을 정리해보았다.우선 konlpy만 먼저 설치할 경우 JAVA HOME에 대한 에러가 난다. 그래서 이 부분 먼저 해결해줘야한다.apt-get install g++ openjdk-8-jdk python3-dev pyth
Author: Alec Radford, OpenAIReading date: March 20, 2022 11:50 AMSubmitted date: 2018Summary: GPT-1Type: Paperunlabeled 텍스트 corpus들은 많은 반면에 특정 task들에
Open AI에서 개발한 모델로 다양한 자연어처리 task를 처리할 수 있는 통합된 모델이 중요한 특징이다.우선 Text를 position 임베딩을 더한다.self-attention 블럭을 12개 쌓는다.Text Prediction : 첫 단어부터 다음 단어까지 순차적
Author: Google AI Language, Jacob DevlinLink: https://arxiv.org/pdf/1810.04805.pdfReading date: March 13, 2022 12:44 PMStatus: ReadingType: Paper
NLP 논문을 읽다보면 정말 자주 나오는 것 같다.우선 precision과 recall을 먼저 알고 넘어가야한다.이미지 분류 모델처럼 cross-entropy loss와 같이 일반적인 loss 방법들을 사용하면 NLP에서 맞지 않을 수 있다.가령 문장 생성 task에서
매 타임 스텝마다 높은 확률을 가지는 단어 하나만을 선택해서 진행한다.이를 Greedy decoding이라고 한다.알고리즘 공부했을 때 배운, 그리디 알고리즘처럼 당시 상황에서의 최선의 선택을 하기 때문에 앞에 Greedy가 붙은 것 같다.이 단점중 하나는 뒤로 못 돌
가끔 내가 짠 코드도 아닌데 에러 났다고 하고...그냥 다른 거 하나 고쳐봤는데 디버깅이 되는 어이없는 상황들을 마주하기 쉽다.이번 포스팅은 그 늪에서 탈출하기 위한 방법들이다.이런 문제는 왜 발생했는지, 어디서 발생했는지 알기 어렵다...Error backtracki
가장 기본적인 방법으로 grid vs random 있다.최근에는 베이지안 기반 기법들이 주도하고 있다.learning rate 0.1, 0.01, 0.001 → ...batchsize 32, 64, 128 → ...조합들을 적용해가며 가장 좋은 하이퍼파라미터를 찾는다.
이번에는 multi gpu를 사용하면서 나올 용어들과 개념들을 정리해보았다. multi gpu하면 꼭 같이 나오는 parallel을 data와 model로 나누어 정리하였다. 코드원래 옛날에는 GPU를 어떻게 하면 적게 쓸까를 고민했지만최근에는 성능에 초점을 두면서 엄
학습을 돌리다 보면 날아가지 않도록 중간중간 저장시켜줘야한다. 이때 사용하는 함수가 save()이다.학습의 결과를 저장하기 위한 함수모델 형태와 파라미터를 저장한다.모델 학습 중간 과정의 저장을 통해 최선의 결과모델을 선택할 수 있다.만들어진 모델을 외부 연구자와 공유
파이토치 데이터는 아래와 같은 과정으로 사용한다.collecting/cleaning/pre processing⇒ Data⇒ Dataset <= transforms ← ToTensor()/Crop()...⇒ DataLoader⇒ Model데이터 입력 형태를 정의하는
딥러닝을 구성하는 Layer의 base class이다.Input, Output, Forward, Backward 정의한다.학습이 되는 Parameter로 정의가 된다.그러면 이제 weight를 정의를 해야하는데 이는 nn.Parameter로 정의된다.Tensor 객체의
우선 파이토치에서는 Tensor의 구조를 사용한다. 그리고 numpy 기능들을 거의 다 지원한다.numpy의 ndarray와 비슷하다.이외의 Data to Tensor, ndarray to tensor방법 등이 있다.~.device를 하면 cpu인지 gpu 사용중인지
Backward에서 자동미분할때 실행시점에서 그래프를 정의하는 방법이다.말 그래도 정의하고 실행하는 것이다.그래프를 먼저 정의 → 실행시점에 데이터를 feed한다.Pytorch는 Define by run(DCG)를 사용하여 실행하면서 그래프를 생성하고Tensorflow
먼저 시퀀스 데이터란 소리, 문자열, 주가 등의 데이터처럼 나열된 데이터를 말한다.이벤트의 순서가 중요하다는 특징이 있다.독립동등분포가정을 잘 위배하기 때문에 순서를 바꾸거나 과거정보에 손실이 발생하면 데이터의 확률분포도 바뀐다.조건부 확률을 이용해 앞으로 발생할 데이
신호(signal)를 커널을 이용해 국소적으로 증표 또는 감소시켜서 정보를 추출, 필터링하는 것CNN에서 사용하는 연산은 계속 convolution이라고 불러왔지만 정확히는 cross-correlation이다. \*\*\* 위치(i,j)에 따라 커널이 바뀌지 않는다.1
우선 통계적 모델링 은 적절한 가정 위에서 확률분포를 추정하는 것이다. 유한한 개수의 데이터만 관찰하기 때문에 근사적으로 확률분포를 추정한다.모수는 확률분포의 특성들이다.모수적 방법론 : 데이터가 특정 확률분포를 따른다고 선험적으로 가정한 후, 그 분포를 결정하는 모수
분류 데이터셋으로 가장 유명한 MNIST 데이터셋을 사용하였습니다.위의 코드를 이용하여 사용할 수 있습니다.문제를 예 / 아니오 로만 구별하는 분류기가 이진 분류기입니다.SGD(확률적 경사 하강법)Classifier를 사용해보았습니다. SGD분류기는 무작위성을 가지고