AIFFEL - Seminar

채리뮤·2024년 2월 19일
0

논문 교류회

이번 시간에는 논문교류회를 통해, 여러 논문을 소개 받았다.
논문들에서 다루고 있는 내용들에 대해 여기에 적어보고자 한다.

논문의 제목은 아래와 같다.

  1. Transformer Attention Is All You Need
  2. VIT An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
  3. CLIP Learning Transferable Visual Models From Natural Language Supervision
  4. SAM Segment Anything

Attention Is All You Need - Transformer 모델: 딥러닝에서의 어텐션의 중요성

https://arxiv.org/abs/1706.03762

Transformer 모델은 "Attention is All You Need"라는 제목의 논문에서 소개된 아키텍처이다.
자연어 처리(NLP)분야에 큰변화를 가져온 모델이고, 이 모델은 순환 신경망(RNN)이나 합성곱 신경망(CNN)에 의존하지 않고, 전적으로 어텐션 메커니즘을 사용하여 시퀀스를 처리한다.

Scaled Dot-Product Attention

Scaled Dot-Product Attention은 쿼리(Q), 키(K), 밸류(V) 세 가지 요소로 구성된다. 이 메커니즘은 입력된 쿼리와 모든 키의 dot-product를 계산한 뒤, 이를 스케일링하여 소프트맥스 함수를 적용함으로써 어텐션 가중치를 얻는다. 이 가중치는 밸류 값에 적용되어, 각 쿼리에 대한 출력 결과를 생성합니다. 스케일링은 dot-product 값이 커질 때 그에 따른 분산 증가를 조절하기 위해 사용된다.

Multi-Head Attention

Multi-Head Attention은 어텐션 함수를 동시에 여러 번 병렬로 수행하는 것을 말한다. 이것을 이용해서 모델은 다양한 표현(subspace)에서 정보를 동시에 캡처할 수 있습니다. 각 "헤드"는 독립적인 어텐션 계산을 하고, 결과는 연결(concatenated)되어 최종적으로 출력된다. 이 방식은 모델이 여러 공간에서 정보를 학습할 수 있게 하고, 성능을 향상시킨다.

Positional Encoding

Transformer 모델은 시퀀스의 순서 정보를 모델에 넣기 위해 Positional Encoding을 사용한다. 이것은 모델이 단어의 순서를 고려할 수 있도록 하고, 특히 시퀀스의 위치에 따라 각 단어에 고유한 벡터를 추가해서 구현이 된다. Transformer 모델이 순서에 민감한 정보를 처리할 수 있게 해주며, 시퀀스 내의 단어 간 관계를 더 잘 이해할 수 있게 합니다.

RNN에서의 정보 병목 현상 해결

기존 RNN 모델은 시퀀스를 순차적으로 처리하면서 각 시점에서의 컨텍스트 정보를 단일 벡터(컨텍스트 벡터)에 압축한다. 이 과정에서 소스 문장의 정보가 해당 벡터에만 의존하게 되고, 정보의 손실과 함께 성능 저하의 원인인 병목 현상이 발생된다.

Transformer 모델은 이러한 병목 현상을 멀티 헤드 어텐션을 통해 해결한다. 전체 시퀀스를 한 번에 모델에 제공하고,각 단어 간의 관계를 직접 모델링함으로써 정보의 흐름을 최적화하고, 정보 손실을 최소화한다.

Transformer 모델은 어텐션 메커니즘이 전체 모델의 핵심으로 자리 잡으면서, NLP 분야에서 다양한 혁신적인 응용을 가능하게 했다. 이 특징덕에 Transformer는 번역, 요약, 질문 응답 등 다양한 작업에서 뛰어난 성능을 보여주고 있다.

VIT Vision Transformer - 이미지 인식을 위한 새로운 접근 방법

https://arxiv.org/abs/2010.11929
Vision Transformer (ViT)
ViT는 이미지를 16x16 크기의 패치로 분할하여 처리하는 방식을 도입했다.
각 패치는 하나의 '단어'처럼 처리되고, 전체 이미지는 이러한 '단어들'의 시퀀스로 변환된다. Transformer 구조를 사용하여 각 패치 간의 관계를 학습하고, 이미지 전체의 컨텍스트를 이해하는 데 도움을 줍니다.

ViT의 구조 및 특징
ViT는 패치로 분할된 이미지에 포지셔널 인코딩을 추가하여 Transformer에 입력한다. 이 구조는 멀티헤드 셀프 어텐션(MSA) 메커니즘을 사용해서 각 패치가 이미지의 다른 부분과 어떻게 관련되는지를 파악한다.
배치 노멀리제이션과 GELU 활성화 함수를 통해, ViT는 이미지 내의 복잡한 패턴과 관계를 효과적으로 모델링할 수 있다.

실험 결과 및 평가
다양한 벤치마크 데이터셋에서 뛰어난 성능을 보였다. 특히나 대규모 데이터셋에서의 효율성과 성능이 기존의 CNN 모델들을 상당히 능가하는 것으로 나타났다. 이 모델은 또한 다양한 시각적 작업으로 잘 전이되고, 사전 훈련된 모델은 적은 데이터로도 높은 정확도를 달성할 수 있음을 보여준다.

결론 및 향후 연구 방향
이 논문에서는 ViT를 통해 향후 연구에서 구조와 학습 방법을 더욱 최적화하여, 더 다양한 시각적 태스크에서의 적용 가능성을 탐구할 것이라 말하고 있다.

CLIP: 자연어 감독 하에 전이 가능한 시각적 모델 학습

https://arxiv.org/abs/2103.00020
CLIP
자연어 설명을 통해 시각적 개념을 학습하고, 이미지와 텍스트 간의 관계를 이해해서, 시각과 언어의 간극을 좁히는 혁신적인 접근 방식을 제시한다. 이 모델은 대규모 이미지-텍스트 쌍을 사용하여 학습되고, 전통적인 이미지 인식 방식을 넘어서는 새로운 경로를 제시했다.

분포 이동(Distribution Shift) 대처 방법 및 유형
분포 이동은 학습 시점과 실제 모델 사용 시점 사이 데이터 분포의 변화를 의미한다.
CLIP은 이러한 분포 이동에 강건하고, 아래와 같은 유형의 분포 이동을 다룬다:

  • Covariate Shift: 입력 데이터 분포가 변할 때 다룸
  • Label Shift: 출력 레이블의 분포가 변할 때 다룸
  • Concept Shift: 입력과 출력 사이의 관계가 변할 때 다룸
  • Domain Shift: 학습 데이터와 실제 사용 데이터가 서로 다른 소스에서 올 때 다룸

제로샷 트랜스퍼(Zero-shot transfer)
CLIP은 제로샷 학습 능력을 통해 학습 중에 본 적 없는 새로운 작업에도 적용할 수 있다. 이것은 CLIP이 일반화된 이미지 인식과 분류 작업에서 뛰어난 성능을 보이고, 실제 세계의 다양한 이미지에 대해 우수한 이해력을 가진다.

결론 및 미래 전망
CLIP은 시각적 정보와 자연어 간의 강력한 상호 작용을 통해 이미지 인식 및 분류 작업에 새로운 방향을 제한다. 분포 이동에 대한 강건함과 제로샷 학습 능력은 이 모델이 시장에서 응용 프로그램에서 중요한 역할을 할 것임을 암시한다. CLIP은 cv과 nlp를 결합한 다양한 응용 분야에서 전망이 좋은 모델이다.

SAM: 모든 것을 분할하는 모델

https://arxiv.org/abs/2304.02643
SAM: Segment Anything
SAM 모델은 이미지 내 다양한 객체를 정밀하게 식별하고 구분하는 고급 이미지 분할 기법을 제공한다.
의료 영상부터 자율 주행까지 다양한 분야에 걸쳐 범용적으로 적용 가능한 이 모델은 대규모 이미지-텍스트 쌍을 활용해 훈련된다.

주요 구조 및 시각적 분석
SAM 모델은 마스크 디코더와 같은 혁신적인 구조를 통해 복잡한 장면을 효과적으로 분할한다. 문서에 포함된 여러 그림은 모델이 이미지를 어떻게 처리하고 분석하는지, 그리고 다양한 분할 과제에서 어떻게 좋은 성능을 발휘할 수 있는지를 시각적으로 보여줄 수 있다.

성능 및 적용 사례
SAM 모델은 이미지 분할 분야의 최신 벤치마크를 상회하는 성능을 보여준다.
모델이 실세계의 다양하고 복잡한 이미지에 대해 높은 일반화 능력과 분할 정확도를 가지고 있음을 의미한다.

결론 및 미래 전망
"SAM: Segment Anything" 모델은 이미지 분할을 위한 강력하고 유연한 솔루션을 제공하고, 이는 학술 연구와 실제 응용 모두에 귀중한 통찰력을 제공한다.
이 모델이 발전하게되면 이미지 인식 및 분석 분야의 미래 연구 방향에 중요한 기여를 할 것이라는 전망이 있다.

온라인 7기 아이펠톤 준비 커리어 세미나 그리고 회고

아이펠톤이라는 협업능력을 기르는 프로젝트를 앞두고, 아이펠에서 이 것을 위한 세미나를 준비해주었다.

여기에서 맨 처음 던진 질문은 이것이다.

"취업 역량이 높다는 것은 어떤 의미일까"
이부분의 답은 아래와 같다.

직무 + 적응
능력이라고 볼 수 있다.

여기에서 취업 역량이란?

취업 역량은 개인이 직장에서 성공적으로 근무하기 위해 필요한 다양한 능력, 지식, 기술, 태도를 포괄하는 개념이다. 이는 구직 활동에서 경쟁력을 갖추고, 일자리를 얻은 후에도 직무를 효율적으로 수행하고 직장 내에서 성장할 수 있는 기반을 마련하는 데 중요한 역할을 합니다. 취업 역량은 단순히 전문적인 기술이나 지식에 국한되지 않고, 다음과 같은 여러 측면을 포함한다.

회고
이외에 다른 여러가지 좋은 준비할 수 있는 포트폴리오 예시와 자기소개서 예시등을 보여주셨고 어떻게 준비하면 되는지 설명해주셨다.

이 주신 자료들을 통해서 좋은 프로젝트를 만들 수 있을 것 같았고, 우리 그루들과 함께 협업 능력 또한 늘릴 수 있을 것 같다.

profile
새로운 도전을 즐겨

0개의 댓글