# Attention

60개의 포스트

Attention 기법

https://comlini8-8.tistory.com/37

7일 전
·
0개의 댓글
post-thumbnail

Training data-efficient image transformers & distillation through attention

Vit는 대규모 데이터를 사용해 사전 훈련되므로 제한적이다.JFT 없이 ImageNet 만으로 학습하여 좋은 퍼포먼스를 얻음.트랜스포머에 teacher-student strategy를 도입함.cnn의 inductive bias를 kd로 먹여주면서 높은 퍼포먼스를 얻음T

2022년 1월 11일
·
0개의 댓글

Stand-Alone Self-Attention in Vision Models

기존의 convolution layer를 self-attention layer로 변경해도 비전 모델에서 comparable한 성능을 보임.self-attention은 convolution보다 더 적은 파라미터 수와 FLOPS를 가짐.그러나 stem(모델의 앞단)에는 c

2021년 12월 29일
·
0개의 댓글
post-thumbnail

Vision Transformer

self-attn만을 사용해서 매우 높은 이미지 분류 성능을 보여줌fine-tuning에서 훨씬 적은 계산 리소스가 필요하고 cnn sota급 성능을 보여줌.기존의 Vit를 위해 self-attn을 시도한 경우는 많지만 대부분 복잡한 연산이고 결과는 좋지만 하드웨어 가

2021년 12월 29일
·
0개의 댓글
post-thumbnail

Non-local Neural Networks

Non-local 연산을 통해 효과적으로 global feature를 학습하고 그로 인해 얕은 레이어에서도 좋은 성능을 보일 수 있다.각 픽셀간의 유사도를 가중치로하여 기존의 픽셀과 계산하는 부분을 attention mechanism으로 볼 수 있다.위 그림이 직관적이

2021년 12월 28일
·
0개의 댓글
post-thumbnail

Squeeze-and-Excitation Networks

기존의 연구는 spatial한 방향으로 이뤄짐키 포인트는 cnn이 feature map을 생성할 때 각 채널에 가중치를 균등하게 준다는 점.본 논문에서는 channel relationship에 포커스를 맞춤 -> channel-wise attention을 수행함.bot

2021년 12월 28일
·
0개의 댓글
post-thumbnail

[CS224n] Lecture 14: Transformers and Self-Attention for Generative Models

작성자 UNIST 산업공학과 김건우Unit 01. IntroductionUnit 02. Transformers and Self-AttentionUnit 03. Image Transformer and Local Self-AttentionUnit 04. Music Tran

2021년 12월 22일
·
2개의 댓글
post-thumbnail

[논문리뷰] Predicting Human Scanpaths in Visual Questions Answering, in CVPR 2021.

Paper: Predicting Human Scanpaths in Visual Question Answering

2021년 12월 13일
·
0개의 댓글
post-thumbnail

Dot product Self-attention은 Lipchitz인가?

linear, Non-linaer, Lipchitzs on Dot-product Multi-head Attention

2021년 11월 30일
·
0개의 댓글

Attention Is All You Need

BOAZ 동아리에서 진행한 1주차 논문 스터디 내용을 공유합니다.

2021년 11월 28일
·
0개의 댓글
post-thumbnail

Attention

어텐션을 아세요?

2021년 11월 27일
·
0개의 댓글
post-thumbnail

Theory of Transformer and each component (brief summary)

Theory RNN은 병렬처리를 할 수 없다는 단점이 있습니다. 이는 이전 스텝의 결과를 이용하기 때문에 구조상 어쩔 수 없습니다. 때문에 학습시간도 상대적으로 오래 걸립니다. 또, 텍스트 데이터는 멀리 떨어진 단어와의 관계와 맥락도 파악할 수 있어야 합니다. 하지만 LSTM은 거리가 멀어질수록 이전 단어의 정보는 점점 사라져갑니다. 논문 'Attent...

2021년 11월 7일
·
0개의 댓글

Components for Attention Mechanism (brief summary)

Encoder Attention 이전의 RNN 기반의 seq2seq 모델에서는 아무리 문장 길이가 길어도 인코더가 같은 길이의 벡터를 출력해야 했습니다. 이렇게 되면 일정 길이 이상의 긴 문장들은 정보가 손실되는 문제가 발생합니다. 또, RNN의 특성인 Vanishing Gradient가 존재합니다. 이를 해결하기 위해 매 스텝의 hidden stat...

2021년 11월 7일
·
0개의 댓글

어텐션 매커니즘

어텐션 매커니즘은 기계번역 분야에서 활발히 활용되는 seq2seq 모델의 단점을 개선한 기법이다. seq2seq 개념 인코더가 레이어를 거치면서 입력 시퀀스의 context vector를 추출 디코더가 context vector를 활용해 출력 시퀀스 생성 seq2seq

2021년 10월 25일
·
0개의 댓글
post-thumbnail

[개념정리] Attention Mechanism

Transformer의 기반이 되는 Attention 기법에 대해 정리한 글입니다.

2021년 10월 6일
·
0개의 댓글