개요 학회 활동도 하는 겸 해서 고전 명작 논문을 한번 리뷰하게 되었다. 사실 Attention 구조도 많이 쓰고 Transformer 구조도 많이(사실 많이 안써봄) 써봤지만, Transformer의 FF 구조가 정확히 어떤 식으로 representation을 잡아내
코드 설명을 시작하기 전 시행착오를 좀 적자면처음에 기존 Transformer, 즉 Encoder Decoder 구조를 만드려다가,약간 LLM처럼 Decoder Only Transformer도 같이 만들려고 하는 와중에Encoder와 Decoder를 하나의 Encode
T5 논문은 기존의 Transformer의 구조를 가지고 얼마나 많은 일을 할 수 있는지에 대해 보여주기 위해 쓰인 논문으로 보인다. 실제로 행해졌을 때의 성능 향상 때문에, 매우 큰 unlabeled text data를 통한 unsupervised pre-traini
이전에 읽었던 논문들이 Pre-training에 치중하고, T5같은 경우엔 Pre-training 된 데이터를 downstream task에 바로 이용하거나, fine-tuning 하여 이용하는 느낌으로 접근했다면 이 논문은 그야말로 Fine-tuning에 치중하여