네이버부스트캠프 AI tech 3-4주차 회고

항상해내는사람 김은기·2022년 2월 14일

네이버부스트캠프회고

목록 보기

3/7

3주차는 설 연휴로 회고를 하기에는 조금 짧게 느껴져 3주차-4주차 통합 회고를 하고자 한다.

✏️ 3주차 회고

3주차에는 Data Visualization에 대해 배웠다. Matplotlib부터 시작해 Seaborn, 다양한 라이브러리에 이르기까지 폭 넓게 경험해볼 수 있었다.

특히나, Kaggle이나 Dacon 대회에서도 발표를 위해 데이터 시각화는 필수적이다. 그러나 데이터에 집중해 어떠한 시각에서 시각화하면 사람들에게 관점을 잘 전달할 수 있을까라는 고민보다는 "남들도 하니까", "하면 있어보이니까"라는 생각으로 지금까지 이어왔었다. 그러나 수업들을 들으며, 데이터를 시각화한다는 것은 이러한 의미이구나라는 것을 깨닫게 되었다.

특히나 통계와 차트 섹션에서 Seaborn의 Pair Plot으로 pair-wise 관계를 시각화하는 함수를 배우게 되었는데, 이를 통해 각 feature 관계를 한 눈에 조망할 수 있어 좋았다. 그리고 지금까지 기계적으로 사용했던 heatmap을 보다 직관적으로 그리고 관계를 파악해가며 만드는 방법을 배울 수 있어 인상 깊었다.

노션 필기의 일부

3주차에는 총 2편의 논문을 리뷰했다.
Efficient Estimation of Word Representations in Vector Space 그리고 Distributed Representations of Words and Phrases and their Compositionality이다.

각각은 word embedding에 대한 내용으로 아래의 총 4편의 글들로 정리를 했다.

https://velog.io/@xuio/NLP-TIL-Negative-Sampling%EA%B3%BC-Hierarchical-Softmax-Distributed-Representation-%EA%B7%B8%EB%A6%AC%EA%B3%A0-n-gram

https://velog.io/@xuio/NLP-TIL-Word2VecCBOW-Skip-gram

https://velog.io/@xuio/NLP-%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-Sequence-to-Sequence-Learning-with-Neural-Networks-xikn77tw

https://velog.io/@xuio/NLP-%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-Distributed-Representations-of-Words-and-Phrases-and-their-Compositionality

각 논문에서 나온 모델들을 이해하기 위해서는 negative sampling, hierarchical softmax에 대한 개념들을 알고 있어야 했으며, 논문에서 skip-gram이나 CBoW의 구조에 대한 상세한 설명이 없어 조금 힘들었다. 특히나, negative sampling까지 오는 흐름에 대한 포스트가 적어 본인 나름대로 정리한 글들이기 때문에 이 부분이 어렵다면 보는 것이 좋을 것 같다.

결과적으로 지금에는 Attention mechanism으로 word embedding이 모두 변화하기는 했지만, word embedding의 흐름 파악에는 필수적인 논문이었다.

✏️ 4주차 회고

Deep Learning Basic이라는 섹션을 통해 MLP, Optimization, CNN, RNN, Transformer, Generative model 거의 딥러닝의 전반을 배웠다. CNN, RNN 내용들의 경우에는 precourse에서도 공개된 강의였기에 어렵지 않았다. 특히나 LSTM 구조를 과거에 처음 보았을 때는 너무 난해했지만 한 번 이해하니 GRU까지 흐름으로 잘 파악할 수 있었다.

다행히 이번 주차 논문을 Transformer로 정해서 거의 네편의 리뷰를 작성했기에 Transformer에 대한 내용은 문제가 없었으나 복병은 Generative model이었다.

해당 내용이 워낙 생소했기 때문에, 이해하는 것이 쉽지는 않았으나 필기를 보고 구글링 하면서 어느정도 맥을 잡은 것 같다. ELBO에 대한 부분 이해가 가장 쉽지가 않았는데 KL divergence부터 이해해나가며, 결과적으로 VAE의 objective와 이를 조작하기 위한 ELBO term을 잘 이해할 수 있게 된 것 같다.

나름의 이해의 흔적

GAN과 Generative model에 대한 포스트는 이번주 목-금 중으로 마무리할 예정이며, 논문의 내용이 워낙 흥미로웠기 때문에 여러 방면으로 살펴보고자 한다.

논문 리뷰는 트렌스포머로 프리뷰 3편, 본편으로 이루어져 있으며, 기존의 정리 내용들이 Decoder 부분에 대해서는 간단히 넘어가는 경우가 많아 이 부분을 이해하는데 많은 시간을 쏟았다. 또한, Transformer의 논문이 등장하기 이전까지 어떠한 문제제기와 돌파가 이 논문의 기반이 되었는지 파악하기 위해 프리뷰 3편에서 흐름을 파악했다.

이 부분이 트렌스포머를 이해하기 위해 필수적이지 않지만 오히려 추천한다. 우리가 그러한 문제제기와 돌파를 하는 과정을 파악해야만 구조를 만들고 학습시킬 때에 더 많은 인사이트를 제공해줄 수 있을 것이라 생각하기 때문이다.

아무튼 우당탕탕 3-4주차 회고는 이것으로 마무리입니다🙇‍♂️