시리즈

ML/DL

1.NLP (Natural Language Processing)

자연어 처리

2021년 12월 8일

2.[NLP] Attention & Transformer

기계가 집중해야할 곳을 알려주는 매커니즘.구글에서 개발.언어의 경우 기계에 Attention을 어떻게 하는지 알아보겠다.

2021년 12월 8일

3.[NLP] BERT

Bidirectional Encoder Representations from Transformers

2021년 12월 8일

4.[NLP] Natural Language Generation

2018년 ~ : BERT 등 transfer learning을 적용하는 pretrained 모델2019년 ~ : GPT-3 등 generation에 포커싱한 모델이 큰 축을 이루게 됨

2021년 12월 8일

5.[Audio] OpenAI Jukebox

음악 생성 모델

2022년 1월 25일

6.활성화 함수 (Activation Functions)

sigmoid / tanh / ReLU

2022년 2월 7일

7.[Audio] STT 후처리

중복 문자 및 불필요한 공백 제거

2022년 8월 27일

8.[NLP] GPT-J, GPT-NeoX

EleutherAI의 GPT-J, GPT-NeoX

2023년 2월 14일

9.[분산학습] Multi-GPU 학습

Model Parallelism, Data Parallelism, Accelerate, DeepSpeed

2023년 2월 15일

10.[NLP] 챗봇 DPR 스키밍

1. 이루다 2. DPR 3. DR-BERT 4. BERT-FP

2023년 2월 15일

11.[효율적 학습] Accelerate, DeepSpeed

큰 모델을 한정된 자원에서 효율적으로 학습하는 법

2023년 1월 18일

12.[분산학습] accelerate에서 Weigths&Biases 쓰기

accelerate에서 학습 tracking하기

2023년 1월 20일

13.[분산학습 이슈] RuntimeError: Invalid mt19937 state

LM 분산학습 오류

2023년 1월 20일

14.Batch size가 크면 Learning Rate도 커야 한다

크면 local minima, 작으면 밖으로 나가버림

2023년 1월 18일

15.ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 1

multi GPU로 LM 분산학습 중 에러

2023년 1월 19일

16.[분산학습] Data Parallelism과 Model Parallelism

NLP 하다보면 모델이랑 데이터 너무 거대한데 한정된 자원으로 어떻게 돌릴 수 있을까

2023년 1월 18일

17.GPT-3 vs ChatGPT vs GPT-4

간단 비교

2023년 3월 30일