Aiffel Final Main Quest - 과제 1
각 값은 입력문장의 모든 벡터로 통일됨
🔑 Keyword
- Recurrent 구조 X - Self-attention mechanism
- Multi-head attention: 병렬처리 가능!
- 인코딩 임베딩 자체를 학습
- 학습률 스케줄링 사용
🔑 Keyword
- Trainable linear projection
- BatchNormalization : 배치 차원에서 각 피처에 대해 정규화
- Layer normalization : Transformer encoder의 각 layer의 activation 함수를 정규화
- Positional embedding : 이미지 패치에 대한 공간 정보 인코딩
- inductive bias : global feature를 찾으려고하는것
- parameter sharing
- 자기지도학습
Learning Transferable Visual Models From Natural Language Supervision
🔑 Keyword
- Image-Text pair
- 이미지-텍스트 쌍의 데이터를 수집
- ConViRT, VirText 도 10-20만개 데이터로 이렇게 데이터 수집 시도
- 검색키워드 = 레이블
- 위키백과에 100번 이상 출현한 문장을 바탕으로 검색
- 24개의 데이터셋을 사용해서 학습
- 대조학습 기반으로 학습
- positive & negative sample간의 관계를 학습
- 클래스 label이 단어일경우 보다 문장의 형태를 갖춰서 인코더에 넣었을때 성능이 좋음(1.3% 성능향상)
- 다양한 모델로 학습 비교
- Zero-shot Transfer : 처음 본 데이터를 사용해서 학습하기 위해서 사용
- 프롬프트 엔지니어링 적용할때 임베딩 스페이스 공간에 앙상블 적용
- 5% 성능 향상
- 적은/모든 데이터셋에 대해서는 일반화가 떨어짐
- 이미지, 텍스트를 각각의 인코더에 넣고, 유사도를 보기위해 dot product
- distribution shift
- 데이터에 변형을 가했을때 강건함을 보여줌
🔑 Keyword
- image segmentation을 위한 foundation model 구축
- zero-shot
- image encoder, mask decoder, prompt encoder
- sparse : 위치 인코딩
- 모호함을 해결하기 위해 하나의 프롬프트에 대해 여러 유효한 마스크가 가능할 경우 이를 위해 여러 출력을 예측하도록 설계
- 토큰을 쿼리로 받아서 사용
- cross-attention
- stage 구분
- assisted-manual stage
- semi-automatic stage
- fully automatic stage
🔑 Keyword
- self attention에 대해 메모리 절약
- attention이 메모리를 많이 사용하는건 아니라는걸 증명
- 수학적 트릭 사용
🔑 Keyword
- state space를 딥러닝에 녹여보려고 연구한 논문
- continuous data 연속형 데이터 / 이산형 데이터\
- 연속형데이터를 이산형으로 변환
- 이산형데이터를 다루는 방법
- 오일러 방법론, bi-linear 방법론, - 방법론 3가지 있음
-> 논문은 bi-linear 방법론을 사용함- 대각화
- Hippo 행렬
convolution하면 생각나는 키워드? CNN?