U_Week_5_Day_24

유영재·2021년 9월 17일

부스트캠프

부스트캠프 AI_Tech

목록 보기

30/30

피어세션 정리

input sequence의 길이가 달라짐에 따라서 Q, K, V 의 row 수가 달라지는 것이 맞는지?
subword tokenization 의 성능이 좋은 이유가 뭔지?
attention is not explanation ?! attention is not not explanation ?! 에 대해서 어떻게 생각하시는지?
gpt-2 : zero shot learning 이 어떻게 학습된다는건지 궁금합니다.
- one shot, few shot 에서는 예시를 준다고 하는게 그걸로 학습을 시킨다는 의미인지 아니면 인풋을 줄 때 앞에다 예시로 준다는 것인지 궁금합니다.
positional encoding vs positional embedding : positional embedding 을 학습하는 것이 positional encoding 을 그냥 하는 것보다 더 좋은 점이 있을지?
- 추가적으로 positional embedding이 단순하게 텍스트 임베딩에 더해주는 방식인데 어떤 효과가 있는지 궁금합니다.. 차라리 concat을 해주면 납득이 되는데...
BERT 등에선 positional embedding vector 또한 학습 가능한 요손데, 그렇다면 이들 사이의 orthogonality는 필수적인 조건은 아닌건지?
Batch Norm과 Layer Norm 차이를 NLP관점에서 설명해주실 수 있나요?
~~특정 언어로만 학습된 모델이 다른 언어에도 활용되는데 도움이 되나요?~~
Auto-regressive 와 teacher forcing 이 어떻게 다른 개념인지 설명해주실 수 있나요?
Transformer의 decoder에서 training과 inference 시에 동작이 달라지나요? training 시에는 masked self attention을 이용해서 teacher forcing을 통해 학습이 되는 것이고, inference 시에는 한 단어씩 decoder를 통과시켜서 예측하는 것이 맞나요?

느낀점

U stage가 마무리 되었다... 멘토링을 하며 위의 질문들에 대해 답변을 해주셨는데, 정리를 하지 못했다.... 앞으로 스스로 알아가 보자.....

유영재

이전 포스트

U_Week_5_Day_24

부스트캠프 AI_Tech

피어세션 정리

느낀점

U_Week_5_Day_23

0개의 댓글