[부스트캠프 AI Tech 5기] Week 5 정리 및 회고

araseo·2023년 4월 29일

부스트캠프 AI Tech

[부스트캠프 AI Tech 5기] Computer Vision

목록 보기

6/9

Week5 강의 요약

CNN visualization

모델의 부분들을 시각화함으로써 모델의 행동에 대해서, 혹은 모델의 결정에 대해서 더 잘 이해할 수 있음

CAM (Class Activation Mapping)

이미지의 어떠한 부분이 마지막 결과에 '기여'를 했는지 시각화하는 모델
마지막에 FC layer 대신 GAP(Global Average Pooling) layer를 사용
CAM을 시각화함으로써 모델이 특정 input에 대해 내린 결론에 대해 해석할 수 있음
GAP layer은 supervision 없이 loacalization이 가능하게 함
하지만 네트워크 구조의 변형 후 재학습해야 한다는 단점이 있음

Grad-CAM

CAM의 단점을 개선한 방법으로, 네트워크 구조를 변형하고 재학습을 하지 않아도 CAM의 결과를 얻을 수 있음

Instance Segmentation

Semantic segmentation뿐만 아니라 개별 instance끼리 구별까지 진행하는 task

Panotic Segmentation

Panotic Segmentation = Semantic Segmentation + Instance Segmentation
주변 배경에 대한 segmentation을 진행할 뿐만 아니라, instance에 대한 segmentation도 진행함

Landmark localization

키포인트의 좌표값을 예측하는 task
- ex) Facial landmark localization, Human pose estimation
Coordicate regression vs. Heatmap classification
Coordinate regression : 보통 부정확하고 편향되는 결괏값을 보이는 경향이 있음
Heatmap classification : Coordinate regression보다는 더 나은 성능을 보이지만, computational cost를 굉장히 많이 필요로 함

Detecting objects as keypoints

CornerNet : Bounding box = {Top-left, Bottom-right} corners
CornerNet (1) : Bounding box = {Top-left, Bottom-right, Center} points (Center helps final decision)
CornerNet (2) : Bounding box = {Width, Height, Center} points

Conditional Generative Model

주어진 조건을 고려하여 image를 생성하는 모델
- ex) 일반적인 generative model 같은 경우 random 한 image를 생성해낼 것이나, conditional generative model 같은 경우 주어진 조건(ex. sketch)을 고려한 image를 생성해낼 것임
주어진 조건을 input으로 제공함
Image-to-Image translation : 주어진 이미지를 다른 이미지로 translation 하는 task
Super resolution : low resolution image를 high resolution image로 translation 하는 task
- black image, white image만 존재하는 극단적인 상황을 가정
  - MAE/MSE : 안전한 평균적인 image를 생성
  - GAN loss : black or white image를 생성(gray image는 discriminator에서 real data에 없는 것이라 쉽게 판단할 수 있음)

Pix2Pix

주어진 이미지를 다른 도메인의 이미지로 translation 하는 모델
Paired data를 필요로 함

CycleGAN

non-pairwise datasets만 있어도 학습이 가능
CycleGAN loss = GAN loss + Cycle-consistency loss
- Cycle-consistency loss : Mode collapse를 방지하기 위해 사용하는 loss로, input image의 contents가 유지될 수 있도록 하는 역할

Matching : 같은 것을 의미하는 서로 다른 데이터 타입을 공통된 space로 보내서 서로를 matching 해줄 수 있는 구조
Translating : 하나의 데이터 타입을 다른 데이터 타입으로 translation 해주는 구조
Referencing : 하나의 데이터 타입에 대해 입력을 받고, 같은 데이터 타입으로 출력을 내보낼 때, 다른 데이터 타입이 결론을 잘 낼 수 있도록 참고의 역할이 되어주는 구조

3D understanding

3D data를 표현할 수 있는 방법은 다양함 ex) Multi-view images, Volumetric, Part assembly, Point cloud, Mesh, Implicit shape
3D data를 이용한 다양한 task가 존재함 ex) 3D object recognition, 3D object detection, 3D semantic segmentation, conditional 3D generation

Recent Trends on Vision Transformers

Transformer

recurrrence와 convolution 없이 attention을 이용하여 결과를 예측하는 구조
self-attention : 단어와 단어 사이의 상관관계를 보여주는 구조
multi-head attention : self-attention 구조를 여러 개 붙여 만든 구조로, 단어 간의 관계에 대하여 다양한 각도로 관찰하기 위해 사용함
encoder : input 내에서의 관계성을 표현하는 값을 출력해 주는 역할
decoder : encoder의 output을 받아 해당하는 target task를 수행하는 역할

Vision Transformers

ransformer 구조가 NLP에서 성공한 것을 보고, CV 분야에도 적용하다는 것에서 영감을 받은 모델
일반적인 transformer 구조를 image에 적용한 것임
overall architecture
(1) 이미지를 정해진 사이즈의 patch들로 자르기
(2) Linear projection을 이용하여 이미지의 patch를 patch embedding으로 변환
(3) class embedding과 patch embedding에 1D positional embedding을 더해줌
(4) embedding을 transformer encoder에 넣은 후 image representation을 뽑음
(5) image representation을 MLP의 input으로 넣어 classification 수행

마스터 클래스 - 오태현 교수님(POSTECH 전기전자공학과)

내가 봐야 하는 논문 찾는 방법

Finding Roots : 논문의 참조 논문들을 읽어보는 방식
ArXiv Sanity 활용
SNS Influencer의 피드를 참고 ex) AK on Twitter
Papers with code 활용

ML in research vs. in production

	Research	Production
Computational priority	Fast training	Fast inference
Data	static	Constantly shifting
Interpretability	Good to have	Important

학위의 의미

석사 : Problem solver
박사 : Problem difiner

현업에서 필요한 역량

복잡한 현실 문제를 AI로 풀 수 있는 문제로 재정의 하는 능력
대규모 AI 모델을 다루는 능력
협업 가능한 소통 능력
도메인에 대한 충분한 지식과 응용력

한 주 요약

week5에는 지난주와 마찬가지로 computer vision에서의 다양한 task와 논문들에 대해 접할 수 있었다. 또 항상 어떤 논문을 읽는 게 좋을지에 대해 고민이 많았고, 나에게 필요한 논문이 무엇인지 찾기가 어려웠는데, 마스터 클래스에서 그 방법을 알려주셔서 정말 감사했다. 짧은 시간 안에 정말 많은 것을 배우게 되어 다시 읽어보는 데에도 꽤 많은 시간이 걸렸지만, computer vision 분야에 대한 시야가 더 넓어진 것 같다는 뿌듯함이 든다.

araseo

AI를 공부하고 있는 학생입니다:)

이전 포스트

[부스트캠프 AI Tech 5기] Week 4 정리 및 회고

다음 포스트

[부스트캠프 AI Tech 5기] Week 5 정리 및 회고

[부스트캠프 AI Tech 5기] Computer Vision

Week5 강의 요약

CNN visualization

CAM (Class Activation Mapping)

Grad-CAM

Instance Segmentation

Panotic Segmentation

Landmark localization

Detecting objects as keypoints

Conditional Generative Model

Pix2Pix

CycleGAN

3D understanding

Recent Trends on Vision Transformers

Transformer

Vision Transformers

마스터 클래스 - 오태현 교수님(POSTECH 전기전자공학과)

내가 봐야 하는 논문 찾는 방법

ML in research vs. in production

학위의 의미

현업에서 필요한 역량

한 주 요약

[부스트캠프 AI Tech 5기] Week 4 정리 및 회고

[부스트캠프 AI Tech 5기] Week 6 정리 및 회고

0개의 댓글

[부스트캠프 AI Tech 5기] Week 5 정리 및 회고

[부스트캠프 AI Tech 5기] Computer Vision

Week5 강의 요약

CNN visualization

CAM (Class Activation Mapping)

Grad-CAM

Instance Segmentation

Panotic Segmentation

Landmark localization

Detecting objects as keypoints

Conditional Generative Model

Pix2Pix

CycleGAN

Multi-modal learning

3D understanding

Recent Trends on Vision Transformers

Transformer

Vision Transformers

마스터 클래스 - 오태현 교수님(POSTECH 전기전자공학과)

내가 봐야 하는 논문 찾는 방법

ML in research vs. in production

학위의 의미

현업에서 필요한 역량

한 주 요약

[부스트캠프 AI Tech 5기] Week 4 정리 및 회고

[부스트캠프 AI Tech 5기] Week 6 정리 및 회고

0개의 댓글