인턴을 진행하며 맡았던 업무 중 가장 오랜 시간을 썼던 것이 Hierarchical 구조를 가진 category를 분류하는 방법론에 대한 탐구이다. 아직까지 어떤 방식이 정답인지 모르겠지만 여러 방법론을 시도해보았고 이들을 기록해보고자 한다. 1. 기존의 Classi
Contrastive Learning은 간단하게 말하면 유사도가 높은 것은 가깝게 유사도가 낮은 것은 멀리 가도록 학습을 진행하는 것이다. 주로 self-supervised learning에서 사용된다.예를 들어, 이미지 x를 augmentation 시킨 $x^\*$가
얼마전에 인턴으로 입사하게 된 회사에서 가장 처음 맡게 된 업무는 불균형한 데이터와 multi label을 위한 focal loss 제작 업무였다. 이를 위해 발표 자료를 정리하는 겸 해당 내용에 대해 정리를 해보았다.생각보다 잘 이해하고 있다고 생각했지만 늘 그렇듯,
Transformer를 이미지에 적용하며 처음으로 괜찮은 성과를 낸 모델이자 그것의 시초가 된 모델이다. NLP를 공부하며 많이 봤었던 Transformer이기에 문제 없이 읽었으나 조금 어려웠던 부분들이 있어 해당 부분은 이후에 따로 정리해보고자 한다.NLP분야에서
AlexNet과 ViT 논문을 읽다보면 Inductive Bias라는 것이 자주 등장했다. 해당 개념을 알 것 같으면서도 확실히 설명하는 것이 어려워 직접 정리를 한 번 해보고자 했다. 이 포스트를 작성하며 euisuk-chung님과 BaeMI님의 블로그를 많이 참고했
지난주부터 CV 논문 리뷰를 시작했다. 그것의 첫 시작으로 AlexNet을 선택했다. 지금까지 NLP 위주로 공부를 진행해왔기에 조금은 어색하기도 하지만 딥러닝을 이해하기 위해서는 넓은 분야에 대해 알아야 하기 때문에 도전해보았다.CV 논문을 리뷰하다 보면 어려운 부분
대회와 프로젝트를 진행하며 정말 많이 들었던 DAPT와 TAPT. 2020년에 ACL에서 최우수 논문으로 선정되기도 했으나 제대로 읽어본 적이 없어 아쉬웠다. DAPT와 TAPT를 진행하면 성능이 상승된다는 얘기도 들었으나 정확한 구현방식을 알지못해 사용해보지 못했던
RoBERTa 논문에서는 기존에 MLM과는 다른 masking인 dynamic masking을 사용한다고 말한다. 기존 MLM은 계속 동일한 단어를 epoch마다 예측하기에 의미 없는 단어를 계속 masking하고 있을 수 있으며 overfitting이 발생할 수도 있
SBERT 논문을 읽던 중에 어떤 모델이 가장 성능이 높은지를 분석하기 위해 STS Dataset의 label과 그것에 대해 모델이 내보낸 값에 대한 상관관계로 Pearson 상관관계가 아닌 Spearman 상관계수를 사용했다고 말한다. 그러면서 이유를 저자의 다른 논
💡 개요 곰파다 프로젝트를 하면서 문장 간 유사도를 계산하는 모델을 구성할 때에 Bi-Encoder 구조 중 하나인 SentenceBERT를 사용해 학습시키고자 했다. 당시에 Cross-Encoder와 Bi-Encoder 방식을 사용할 때 성능 뿐만이 아니라 속도
fine-tuning을 두 번 한다는 것이 가능한가? 그것을 전이학습(Transfer Learning)이라고 할 수 있는가? 그렇게 된다면 효과가 무엇인가라는 질문으로 시작해 둘에 대한 정의와 공통점 및 차이점을 공부하는 시간을 가졌습니다.해당 내용은 노션에 정리한 것
RoBERTa에서도 알 수 있듯 Attention을 활용한 Encoder를 쌓은 BERT 구조는 매우 강력한 성능을 자랑한다. 데이터만 확보가 된다면 문장들을 임베딩해 높은 성능의 결과물도 내보내게 된다.하지만 BERT는 Encoder지만 Encoder 본질의 역할보다
대회와 프로젝트를 진행하며 가장 많이 사용했던 RoBERTa 모델. KLUE에서 Huggingface에 공개하기도 했고 한국어로 pre-trained가 매우 잘 되어 있어 여러 task에 fine-tuning하기 적합했다.하지만 BERT 기반에 학습법만 다르게 했던 모
Self-training methods 방식은 대표적인 ELMo, GPT, BERT 모델들을 학습시키는 방식높은 확률값이 나오는 데이터 위주로 다시 학습에 가져가겠다는 것. 예를들어 로지스틱 회귀분석(logistic regression) 결과 한 데이터에 대한 1일 확
대회를 진행하면서 정말 많이 사용한 방식인데 이에 대해 이해가 부족한 것 같아 내 방식대로 정리해보았다. 종류FP32 (Single Precision, 단정밀도)FP64 (Double Precision)FP128 (Quadruple Precision)FP16 (Half
https://d2l.ai/chapter_computer-vision/fine-tuning.htmlKeras 문서를 기반 작성했다. Transfer Learning과 Fine-tuning의 차이에 대해 깊이 있게 다룬 문서가 없어 직접 작성해보았다.Transf
5개월간의 돌아보면 상당히 짧은 여정을 마쳤다. 하지만 그 짧은 기간 동안 정말 많은 성장을 이루어낼 수 있었던 것 같다. 학업적으로도 인격적으로도 정말 많은 부분을 느끼고 배우게 된 것 같다.돌아보면 정말 우연하게 시작했다. 그리고 좋은 팀원들과 멘토님 그리고 동료들
멋들어진 형용사 한 단어를 섞어서 만든 자신을 소개하는 한 문장.최근에 네이버 부스트캠프 슬랙에 이력서 피드백을 위해 다들 본인 나름대로 꾸민 이력서들이 올라온다. 그중에서 가장 눈에 띄었던 것은 다들 자신을 \_\_\_한 개발자라고 소개하는 부분이었다. 한 사람을 임
부스트캠프 스터디원분들과 진행한 논문 스터디에서 이번주에는 Skip-Thought Vectors라는 생소한 논문을 리뷰했다. Skip-gram과 Word2Vec, Seq2Seq까지 Transformer가 나타나기 이전에 word embedding에서 한 획을 그었다 할
얼마 전 딴짓을 조금 하고 싶어서 영화를 봤다. <파울볼>이라는 독립영화이며, 2012년 창단해 2014년 해체한 최초의 국내 독립야구 구단 고양 원더스의 이야기를 리얼 다큐멘터리 형식으로 촬영했다. 야구를 좋아했기에 당연히 알고 있던 팀이었고 어떤 논란이 있었는