부스트캠프 AI Tech 5기 5주차 [NLP]

JSK·2023년 4월 7일

부스트캠프 AI Tech 5기

목록 보기

7/22

NLP 학습 정리

7강

Transformer와 RNN의 차이: RNN에서는 Long-Term Dependency 등의 문제로 인해 sequence가 길어지면 gradient vanishing 같은 문제가 발생할 수 있는데 Transformer에서는 RNN을 사용하지 않으므로 해당 문제가 보완됨
Scaled Dot-Product Attention: Query, Key, Value 벡터를 이용해서 token 간의 유사도를 구하는 방법으로 Query와 Key의 내적으로 value 별 weight 값을 구한 뒤 weight 값을 스케일링을 위해 $\sqrt{d_k}$ 로 나누어줍니다. 마지막으로 value들에 weight 값을 곱하면 Attention Value를 구할 수 있습니다.

8강

Multi-Head Attention: Single attention에서는 token들 간의 관계를 확인하려면 한가지 시각에서밖에 볼 수 없다는 단점이 있는데 head가 여러 개인 경우 token들간의 관계를 여러 측면에서 볼 수 있습니다. 예를 들면 문장이 어떤 문장인지, 단어들 간의 관계가 어떻게 되는지 등 다양한 측면으로 관계들을 볼 수 있게 됩니다. Multi-head Attention에서는 헤드별로 attention 값을 구한 후 그 값을 합쳐서 사용합니다.
Masked Self-Attention: Masked Self-Attention은 미래의 token을 참고할 수 없도록 masking을 하고 Attention을 구하는 방법입니다. 추측 과정에서 아직 생성되지 않은 미래의 token을 참고할 수 없도록 아직 생성되지 않은 값의 Attention 값은 0에 수렴시키기 위해서 masking을 사용합니다.

9강

Self-supervised learnings: 일반적인 지도학습은 정확하게 레이블링 된 데이터를 구하기 힘들다는 단점이 있습니다. 자기지도학습은 지도학습의 단점을 보완하기위한 방식으로 레이블이 없는 데이터를 모델이 스스로 문제와 정답을 만들어 학습에 사용하는 방법입니다.
GPT-1: GPT-1은 OpenAI에서 발표한 mproving Language Understanding by Generative Pre-training이라는 논문에서 소개된 모델입니다. 모델을 다양한 데이터를 이용해 사전학습하고 이후 자신이 필요한 작업에 맞는 데이터로 fine-tuning을 수행하면 사전학습 없이 사용하는 모델보다 더 좋은 성능을 보입니다. 하지만 학습에 사용할만한 다양한 데이터를 찾기 어렵다는 문제점이 있는데 GPT에서는 이 문제점을 Self-supervised learning을 통해 해결합니다.
BERT: BERT는 언어모델에서 한쪽 방향으로만 학습하는 대신 양쪽 방향 모두를 학습에 사용하면 더 좋은 성능을 보여줄 것이라는 생각으로 개발된 모델입니다. BERT도 GPT처럼 self-supervised learning을 통해 사전 학습을 진행하고 이후 자신이 필요한 작업에 맞는 데이터로 fine-tuning 과정을 거치고 학습 과정에서 token 일부를 masking하고 그 자리에 어떤 token이 들어가야 할지 예측하고 어떤 두 문장이 서로 이어지는지 아닌지를 예측하는 방식을 사용합니다.

10강

ALBERT: BERT를 경량화시킨 모델로 layer 간에 ffn 파라미터나 attention 파라미터 등을 공유하여 파라미터의 개수를 줄였고 성능 면에서도 뒤처지지 않는 모습을 보여줌
ELECTRA: 토큰을 그럴듯하게 교체한 문장에서 실제 input 값들을 구별하는 방법으로 학습하는 모델로 BERT 같은 MLM모델보다 좋은 성능을 보임

구인구팀 시즌 시작

이제 Level 1 과정이 거의 마무리되어가는데 Level 1 과정이 끝나면 새로운 팀과 함께 Level 2와 Level 3 과정을 수행하게 된다. 이에 앞서 이번 주부터 각자 함께할 팀원을 구하는 구인구팀 과정이 시작되었다. 앞으로 4달 가까운 기간을 함께해야 하기 때문에 서로 관심사가 비슷하고 잘 맞는 팀원들을 구하는 것이 중요할 것 같다. 일단 게시판에 나를 소개하는 글을 써놓기는 했지만 다른 캠퍼들에 비하면 많이 초라한 것 같다... 아무 의미 없이 그냥 빈둥대면서 흘려보낸 지난 시간들이 후회되긴 하지만 지금부터라도 열심히 하면 언젠가는 나도 자기소개 페이지를 이것저것으로 가득 채우게 될 수 있다는 생각으로 살아야겠다.

Week5 회고

이제 부스트캠프에 들어온 지 한 달이 지났다. 한 달이라는 그렇게 짧은 기간은 아니지만 나에게는 상당히 짧게 느껴졌던 것 같다. 한 주 내내 강의를 듣고 과제를 하다 보면 금방 다음 주가 와버렸기 때문에 한 달이 지났다는 것이 잘 믿기지 않는다. 아직 지금까지 보낸 시간의 4배 정도의 시간이 남았지만, 그 시간도 금방 지나갈 것 같은 느낌이 든다. 남은 4개월은 프로젝트를 하면서 보내게 될 텐데 걱정도 많이 되고 기대도 많이 되는 것 같다. 내가 어떻게 받아들이는지에 상관없이 시간은 지나가니까 그냥 되는 데로 해보고 후회 없이 과정을 마치고 싶다.

JSK

학사지만 AI하고 싶어요...

이전 포스트

부스트캠프 AI Tech 5기 4주차 [Data Viz&NLP]

다음 포스트

부스트캠프 AI Tech 5기 5주차 [NLP]

부스트캠프 AI Tech 5기

NLP 학습 정리

7강

8강

9강

10강

구인구팀 시즌 시작

Week5 회고

부스트캠프 AI Tech 5기 4주차 [Data Viz&NLP]

부스트캠프 AI Tech 5기 6주차 [NLP 기초대회]

0개의 댓글