유튜브로 트랜스포머 겉핥기

hur-kyuh-leez·2024년 1월 26일
0

트랜스포머

목록 보기
2/11

MIT 101
매우 high level로 설명해서 이해하는데 매우 쉬움
트랜스포퍼에 대한 큰 픽쳐 만들어 줄 수 있다.

Standford

  • 트랜스포퍼가 탄생한 배경에 대해 알려주고 시작하여, 왜 이렇게 발전 했지를 알려줌
  • encoder에서 decoder로 넘어갈 때 하나의 vector 정보로 넘어가기 때문에 모든 정보를 담을 수 없어서 bottleneck이 있었고 이런거 해결 하기 위해 다양한 방법이 있었는데 그 중 하나인, "Neural Machine Translation by Jointly Learning to Align and Translate" soft search, 바로 Attention은 시초.
    비유를 하자면 encoder에서 넘어 온 것은 숲을 보고
    soft search로 디테일한 나무를 보게 하는 것
  • 하지만, detail 하게 설명 하는 것은 아는 사람만 이해하고 새로 배우는 사람에게는 이해불가 하게 설명
  • decision transformer 보충
  • ResNet 쉬운 개념 설명
    신경망이 깊어지면 정답이 이상하게 나옴 왜냐하면 input을 까먹기 때문.해결 하기 위해 중간, 중간에 기억 하라고 input을 다시 넣어 줌.
  • 비슷한 내용은 글로 보고 싶으면 그림으로 설명이 되어 있어 이해하기 매우 편안함. 그러나 글의 내용은 별로임. 핵심을 못짚고 왜 이렇게 해야 하는 지 설명을 건너 뜀.

허민석 설명
듣고 있으면 이해하는 듯 보이나, 실제로 알아들을 수 없음.
추천 하지 않음

추천 유튜브 강의
수학도 살짝 있어 이해하기 좋음. 매우 좋은 강의 그러나 큰그림을 먼저 알려주지 않기 때문에 다른 강의들 먼저 듣고 보는 걸 추천 특히 Rasa를 먼저 보면 이해가 빠름

  • "곱한다"는 의미는 유사도를 찾는다라고 생각

GPT 만들기
한번쯤은 해보면 좋은 강의 하지만 뒤로 갈 수록 설명이 적어 그닥 추전 하지는 않음. 필자도 다 해보지 못함.

Query, Key, Value 개념 조금 디테일 하게 배우기
강력추천 - 가장 concept을 잘 알려주면서도 디테일하게 배워야 할 내용 전달해 줌
다른 영상에서는 query, key, value에 대해서 대충 넘어 간다. 하지만 중요한 내용이다. weights가 어떻게 update 되는 지, 왜 해당 vector들이 정확히 어디에 위치 하는 지 알 필요가 있다.
또한, why? 대한 답을 해준다. 왜 multi-head가 필요한 지 등...

profile
벨로그에 생각을 임시로 저장합니다. 틀린건 틀렸다고 해주세요 :) 그래야 논리 학습이 강화됩니다.

0개의 댓글