피어세션 정리
- input sequence의 길이가 달라짐에 따라서 Q, K, V 의 row 수가 달라지는 것이 맞는지?
- subword tokenization 의 성능이 좋은 이유가 뭔지?
- attention is not explanation ?! attention is not not explanation ?! 에 대해서 어떻게 생각하시는지?
- gpt-2 : zero shot learning 이 어떻게 학습된다는건지 궁금합니다.
- one shot, few shot 에서는 예시를 준다고 하는게 그걸로 학습을 시킨다는 의미인지 아니면 인풋을 줄 때 앞에다 예시로 준다는 것인지 궁금합니다.
- positional encoding vs positional embedding : positional embedding 을 학습하는 것이 positional encoding 을 그냥 하는 것보다 더 좋은 점이 있을지?
- 추가적으로 positional embedding이 단순하게 텍스트 임베딩에 더해주는 방식인데 어떤 효과가 있는지 궁금합니다.. 차라리 concat을 해주면 납득이 되는데...
- BERT 등에선 positional embedding vector 또한 학습 가능한 요손데, 그렇다면 이들 사이의 orthogonality는 필수적인 조건은 아닌건지?
- Batch Norm과 Layer Norm 차이를 NLP관점에서 설명해주실 수 있나요?
특정 언어로만 학습된 모델이 다른 언어에도 활용되는데 도움이 되나요?
- Auto-regressive 와 teacher forcing 이 어떻게 다른 개념인지 설명해주실 수 있나요?
- Transformer의 decoder에서 training과 inference 시에 동작이 달라지나요? training 시에는 masked self attention을 이용해서 teacher forcing을 통해 학습이 되는 것이고, inference 시에는 한 단어씩 decoder를 통과시켜서 예측하는 것이 맞나요?
느낀점
U stage가 마무리 되었다... 멘토링을 하며 위의 질문들에 대해 답변을 해주셨는데, 정리를 하지 못했다.... 앞으로 스스로 알아가 보자.....