# transformer

[Paper] Better plain ViT baselines for ImageNet-1k
original ViT로부터 성능을 10%나 증가시킨 방법
OCR에 대한 이해
OCR 프로젝트를 진행하여 처음 배운 Transformer 모델에 대한 이해를 메모한다.Optical Character Recognition : 이미지에서 글자를 인식하고 이를 자연어로 변환하는 기술Text Detection + Text Recognition 두단계로

Transformer-xl: Attentive language models beyond a fixed-length context
Extra-Large한 Language Model을 만들어볼까? | 16기 장준원

[Review] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (ViT)
ViT이전에 computer vision에서 attention 구조는 실용적으로 좋은 성능을 내지 못했음Transformer구조에 영감을받아 1) image를 patch로 쪼개고2) patch들의 sequence를 모델의 input으로 사용하는 구조를 고안했다고함.여기

[Review] Transformer: Attention Is All You Need
github기존 RNN이나 일부만 attention을 사용하던 구조에서 전체적으로 attention만을 사용한 구조로 등장하여 기존 모델 대비 높은 성능을 보여주었다.연산량을 줄이기 위해 고안된 convolution기반의ConvS2S나 ByteNet의 연산량은 inpu
[부스트캠프 AI Tech 3기] 12주차 대회 정리 & 회고
Text Data Augmentation 경험Github으로 협업하는 방법 익히기Huggingface 자유롭게 사용하기한글 text data augmentation 조사 & 적용쉘스크립트 도입으로 실험 간편 & 자동화체계적인 WandB 세팅으로 실험 추적 편리성 추구V
[부스트캠프 AI Tech 3기] 11주차 정리 & 회고
트랜스포머의 디코더 부분을 사용한 모델, Bert와는 정반대GPT-1의 경우 자연어 문장 분류에서 특화되었었음기학습 언어 모델의 새 지평을 연 것으로 평가됨여전히 Supervised learning을 필요로 하며, labeling에 드는 자원을 감당하기 힘듬지도 학습의

[Paper] Improving Language Understanding by Generative Pre-Training
논문 링크현실에 존재하는 Unlabeled Dataset이 훨씬 많음.Unlabeled Text Corpora를 가지고 Generative Pre-Training of a Language Model 을 가지고 임베딩 벡터를 찾자. 그리고 downstream task에

Pytorch로 Transformer 구현해보기 (3/3)
트랜스포머의 구조는 N개의 인코더와 디코더가 쌓여있고 입력 문장(소스 문장)을 입력하면 인코더에서 해당 문장에 대한 표현을 학습시키고, 그 결과값을 디코더에 보내면 디코더에서 타깃 문장을 생성한다.디코더는 vocab에 대한 확률 분포를 예측하고 확률이 가장 큰 단어를

Pytorch로 Transformer 구현해보기 (2/3)
앞선 글에서 인코더는 N개를 누적하여 쌓을 수 있다는 것을 확인했다. 디코더도 인코더와 동일하게 쌓을 수 있다. N = 2로 예를 들면 인코더가 2개 디코더가 2개로 이루어진 트랜스포머 모델이 만들어진다.디코더에서는 시간 스텝 t = 1이면 디코더의 입력값은 문장의 시

Pytorch로 Transformer 구현해보기 (1/3)
트랜스포머는 자연어처리에서 자주 사용하는 딥러닝 아키텍처 중 하나다. 트랜스포머가 나온 이후로는 RNN과 LSTM를 사용한 태스크는 트랜스포머로 많이 대체되었다. 또한 BERT, GPT, T5 등과 같은 자연어 처리 모델에 트랜스포머 아키텍처가 적용됐다.트랜스포머는 인
[부스트캠프 AI Tech 3기] 10주차 정리 & 회고
AI 탄생과 NLPNLP 소개과거: Rule-based 기반의 ELIZA 등으로 AI 황금기현재: 다양한 NLP 응용 분야가 존재, 다른 도메인과 병행하여 서비스 하는 것이 보편적NLP 응용인간의 NLP: 사전 지식 기반으로 인코딩, 디코딩컴퓨터 NLP: 자연어를 벡터
[부스트캠프 AI Tech 3기] 9주차 정리 & 회고
RNN이나 CNN을 쓰지 않고 Attention만으로 구성하는 모델고전적인 구조에서 Attention은 이전 정보를 rnn에 계속 통과시키기에, 그래디언트 문제가 필연적으로 발생한다.Bi-directional rnn으로 양방향의 Attention 정보를 concat 하
attention, scaled dot-product
Transfomer의 논문 제목 "Attention is all you need"에서 볼 수 있듯이 Transformer는 Seq2Seq with attention 모델에서 attention을 주로 사용한 모델이다.

[GPT-1] Improving Language Understanding by Generative Pre-Training
최근 몇년간 NLP를 휩쓴 모델 두 가지만 이야기해보라고 하면 단연 GPT 시리즈와 BERT를 꼽을 것이다. BERT는 특유의 NLU 친화적인 모델구조로 인해 다양한 태스크에 쉽게 적용될 수 있어 무척 많은 연구들이 쏟아져 나왔다. 이에 비해 GPT의 경우 OpenAI
[ Paper Review ] Attention is all you need
주저자 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017)기록 22.02.26 ~ 22.03.08옮김 22.03.15RNN (Rec