10. 3D Understanding

10. 3D Understanding 3D가 AI에서 중요한 이유 우리가 3D세상에 살고 있기 때문에, AI를 통해 사람들에게 도움을 주기 위해서는 3D에 대한 이해가 필요하다. 그렇다면 우리는 3D를 어떻게 관찰하고 인지할 수 있을까? 3D를 2D로 변환하여 관찰하는데 이를 projection이라 한다. e.g. 에펠탑을 관찰하기 위해 사진을 찍어 2D로 표현 만약 projection 된 2D 사진 두 개가 있다면 다시 3D로 변환할 수 있다. 각 point에서 3D 선을 그어 교차하는 부분을 3D point로 잡을 수 있으며 이러한 작업을 Triangulation이라 한다. ![](https://velog.velcdn.com/i

2022년 5월 13일
·
0개의 댓글
·

9. Multi-modal Learning

9. Multi-modal Learning Multi-modal Learning 사람이 여러 개의 감각기관을 활용하여 문제를 해결하듯이 딥러닝에도 이를 적용해보자. 한 type의 데이터가 아닌 다른 특성을 갖는 데이터 type들을 같이 사용하는 활용하는 학습법 e.g.) Text , audio data 각각의 데이터들은 서로 다른 타입으로 자료구조와 가지고 있는 특성 모두 다르기 때문에, multi-modal learning을 쉽게 하지 못하는 방해요소가 된다.

2022년 5월 13일
·
0개의 댓글
·

8. Conditional Generative Model

Translating an image given “condition” sketch된 영상을 실제 사진과 같은 이미지로 변환해주는 과정을 생각해보자 어떻게 보면 언어가 다를 때 번역하는 것과 같아서 서로 다른 두 도메인을 translation한다는 task이다. 이 때 하나의 정보가 주어졌기 때문에, 이것을 condition되었다 또는 조건이 주어졌다고 한다. 이 조건에 해당하는 결과가 나오는 형태를 conditional generative model이라 한다. generative model은 일반적으로 확률분포를 모델링하는 기법이기 때문에, 확률표현을 빌려와서 sketch가 주어진 상태에서 X인 이미지가 나올 확률로 표현할 수 있다. 이렇게

2022년 5월 13일
·
0개의 댓글
·

7. Autograd

Autograd Automatic gradient의 약자로 Automatic differentiation라고도 불린다. 기본적으로 행렬 연산을 하는 라이브러리로 대부분 DL library의 고유한 기능이다. 과거에는 gradient를 일일히 손으로 계산하고 backward 를 수식으로 전개하여 일일히 구현을 해줬어야 한다. Autograd의 Computational graph를 통해 Automatic differentiation을 편하게 구현할 수 있게 되었다. Autograd - Tutorial backward chain rule 을 이용한 back propagation 알고리즘 사용 backward를 호출하게 되면 중간 계산 과정은 저장하는 것

2022년 5월 12일
·
0개의 댓글
·

6. CNN Visualization

black box 모델인 CNN의 내부 동작을 가시화하는 방법들에 대해 설명 CNN을 구성해서 어떤 task의 데이터셋으로 입력과 출력을 주고 학습을 했음에도 잘 되지 않는 경우가 있는데 이 때는 왜 안되는걸까? 를 알아보기 위해 시각화를 진행한다. ZFNet deconvolution을 이용한 visualization을 시도한 연구 이 연구를 통해 낮은 계층에서는 조금 더 방향성이 있는 선을 찾는 filter들을 확인할 수 있었고, 높은 계층으로 갈 수록 high level의 의미가 있다는 것을 파악할 수 있었다. visualization은 단순히 눈이 호강하기 위해 하는 것이 아닌 CNN이 어떤 부분을 보고 어떻게 파악하는지를 조금이라도 알 수 있는 중요한 부분이다. filt

2022년 5월 12일
·
0개의 댓글
·

5. Object Detection

Object detection 지금까지의 기술은 영상을 인식하고 semantic segmentation까지 할 수 있었다. 여기서 더 advance된 기법은 자동차들 중에 같은 종류의 자동차가 있는지와 같은 인스턴스 구분이 가능해진 Instance segmentation과 panoptic segmentation이 있다. Object detection은 classification과 bounding box를 동시에 추정하는 문제 특정 객체들을 바운딩 박스 형태로 위치를 측정하고 해당 박스 안의 객체의 ca

2022년 5월 12일
·
0개의 댓글
·

4. Semantic segmentation

Semantic segmentation 지난번의 image classification을 영상 단위가 아닌 픽셀단위로 수행하는 것 하나의 픽셀이 어느 객체인지를 구분하는 문제 → 하나의 영상 안에 있는 모든 객체를 검출 semantic segmentation을 사용하게 되면 object들이 나눠지게 되고 이 특징들을 이용하여 특정 object만 변경할 수 있다. Fully convolution networks(FCN) first end-to-end semantic segmentation 이전에는 여러 알고리즘의 결합으로 semantic segmentation을 수행했었기 때문에, 데이터가 많더라도 학습 가능한 부분이 굉장히 제한적이었다. 예를 들어, A

2022년 5월 12일
·
0개의 댓글
·

3. Image Classification 2

Problems with deeper layers AlexNet부터 VGGNet으로 가면서 더 깊은 네트워크가 더 좋은 성능을 낸다는 것을 확인하였다. 모델의 깊으면 더 복잡한 관계에 대해 학습이 가능하고, receptive field를 가지기 때문에 신중히 결론을 내릴 수 있기에 좋은 성능이 나온다. 이 논리라면 깊이를 무조건 깊게하면 성능을 높일 수 있지만, 여기에는 gradient vanishing/exploding 문제가 나타난다. 또한, 계산복잡도가 올라가기에 더 큰 GPU가 필요하다 이전에는 모델 파라미터 수가 표현력이 과하게 좋으니 overfitting에 취약할 것이다 라고 생각했지만, overfitting이 아닌 degradation problem 때문이라는 것이 밝혀졌다. GoogleNet ![](https://velog.velcdn.com/images/ysw2946/post/92df4359-a1e3-4817-

2022년 5월 12일
·
0개의 댓글
·

2. Annotation Data Efficient Learning

Data Augmentation 우리가 학습에 사용하는 데이터는 모두 사람이 보기 좋게 찍은 사진들이지만, 실제 데이터들은 어떻게 들어올지 모르는 데이터들이다. 우리의 데이터셋이 real data를 충분하게 표현하지 못한다면 여러 문제가 발생한다. eg ) 밝은 영상으로만 이루어진 데이터로 모델을 학습시켰을때 이 모델이 어두운 배경의 고양이가 들어왔을 때 제대로 인식하지 못한다. 이러한 경우 Data Augmentation을 활용하여 이 세상에 찍힐 수 있는 여러 데이터를 표현할 수 있게 가능성을 높일 수 있다. Brightness adjustment 이미지 밝기를 높이기 위해서는 단순히 숫자를 더하는 것으로 할 수 있다.

2022년 5월 12일
·
0개의 댓글
·

YoLo v4

YOLO Region proposal 단계가 없고, 전체 이미지에서 bounding box 예측과 classification을 동시에 예측한다. 따라서, 이미지 또는 물체를 전체적으로 관찰하여 추론하는 것으로 맥락적 이해가 높은 모델이다. | version | 특징 | | --- | --- | | Yolo v1 | 하나의 이미지의 Bbox와 classification 동시에 예측하는 1 stage detector | | Yolo v2 | 빠르고 강력하고 더 좋게 3가지 측면에서 model 향상 | | Yolo v3 | multi-scale feature maps 사용 | | Yolo v4 | 최신 딥러닝 기술 사용(BOF : Bag of Freebies , BOS: Bag of Specials) | | Yolo v5 | 크기별로 모델 구성(Small, Medium, Large , XLarge) | Abstract CNN의 정확도를 향상시키

2022년 5월 12일
·
0개의 댓글
·

Faster R-CNN

Faster R-CNN Abstract Sota를 달성한 object detection network들은 객체 위치를 예측하기 위해 region proposal 알고리즘에 의존한다. SPPnet과 Fast R-CNN 같은 발전으로 네트워크 실행시간을 단축시킬 수 있었지만, region proposal을 계산에서 병목현상이 발생하였다. 따라서, 전체 이미지의 detection 네트워크와 전체 이미지의 convolution 특징을 공유하여 비용이 거의 들지 않는 RPN이라는 네트워크를 제안한다. RPN은 각 위치에서 객체의 경계와 객체성 점수를 동시에 예측하는 fully convolution convoultion 네트워크이며, 높은 퀄리티의 region proposal을 생성하기 위해서 end-to-end로 학습된다. 따라서, RPN은 Fast R-CNN의 convolution 특징과 RPN의 특징을 공유함으로써 single 네트워크로 병합함으로, 최근에 인

2022년 5월 12일
·
0개의 댓글
·

Fast R-CNN

Abstract Fast R-CNN은 R-CNN의 한계점을 보완하고자 제안되었다. region of interest 마다 CNN 연산을 하기 때문에 속도가 느리다. → ROI pooling을 통해 해결 multi-stage piplines이기 때문에 end-to-end로 학습하지 못한다. → 하나의 pipeline으로 통합 Introduction 최근 deep CNN은 image classification 과 object detection에서 정확도가 크게 개선되었다. object detection은 객체의 정확한 위치 파악이 필요하기 때문에 classification보다 복잡하기에 두 가지 과제가 발생한다. 수많은 region proposal이 처리되어야 한다. 이러한 후보 영역들은 대략적인 위치만 제공하기 때문에 정확한 위치를 재정의 해야한다. 이러한 문제에 대한 해결책들로 인해 속도, 정확성, 단순성이 저하되는

2022년 5월 12일
·
0개의 댓글
·

R-CNN

Abstract object detection의 성능은 지난 몇 년 동안 정체되었다. 지금까지 최고의 성능을 나타내는 방법은 여러 low-level의 이미지 특징을 high-level 특징과 결합하는 복잡한 앙상블 시스템이었다. 논문에서는 이전 최고 결과와 비교하여 mAP를 30% 향상시켜 53.3%의 mAP를 달성하는 간단하고 확장 가능한 알고리즘을 제안한다. 이 방법은 두 가지 key insight를 결합했다. region proposal로 object 위치를 알아내고 이를 CNN과 결합한다. 레이블된 훈련 데이터가 부족할 때, pre-trained model을 fine-tuning하여 사용한다. 따라서, region proposal과 CNN을 결합하여 R-CNN으로 부르게 되었다. Intorduction 다양한 visual recognition task의 지난 10년간의 인식은 SIFT와 HOG에 기초해 왔다. 하지만 이

2022년 5월 12일
·
0개의 댓글
·

ResNet

Abstract 신경망이 깊어질수록 학습하기는 어렵다. 이 논문에서는 이전의 네트워크보다 상당히 깊은 네트워크를 학습하기 용이하게 하기 위한 잔차 학습(residual learning)을 제시한다. 함수를 새로 만드는 것 대신 잔차를 학습에 사용하는 것으로 layer를 재구성한다. 이러한 다양한 실험을 통해 residual network가 상당히 깊은 네트워크에서 optimize 하기 더 쉽고, 높은 정확도를 얻을 수 있음을 보여준다. 결과적으로 resnet은 기존의 Vggnet보다 8배 깊은 152개의 레이어를 쌓아 ImageNet 데이터를 학습하였으며, 그 결과 복잡도는 줄이며 좋은 성능을 나타냈다. Introduction 네트워크 깊이의 중요성은 다음과 같은 의문이 생긴다. “더 나은 네트워크를 배우는 것이 더 많은 층을 쌓는 것만큼 쉬운가?” 이 질문에 답하기 어려운 이유는 악명높은 그래디언트 소실과 폭주 때문이다. 이러한 그래디언트

2022년 5월 12일
·
0개의 댓글
·

VGGNet

Abstract 논문은 큰 이미지 인식 설정 시 Convolution 네트워크의 깊이가 정확도에 미치는 영향을 조사한다. Vggnet은 3x3의 작은 filter들을 이용하여 네트워크를 점점 깊게 쌓으며 검증하였고, 그 결과 상당한 개선이 이루어졌다. 또한, vggnet을 이용해 ImageNet Challenge 2014에서 classification 2위를 차지했다고 한다. Introduction Convolutional networks는 ImageNet과 같은 큰 공공의 이미지 저장소와 GPU와 같은 고성능 컴퓨팅 시스템 덕분에 큰 이미지와 비디오 인식 분야에서 큰 성공을 거두었다. 특히, 심층적인 시각적 인식 아키텍처의 발전에는 ILSVRC와 같은 대규모 시각적 인식 대회가 큰 역할을 하였다. ConvNets가 컴퓨터 비전 분야에서 더욱 상용화됨에 따라, 더 나은 정확도를 얻기 위해 Krizhevsky 등(2012)의 원래 convne

2022년 5월 11일
·
0개의 댓글
·

AlexNet

AlexNet Abstract ImageNet LSVRC-2010 대회에서 1000개의 클래스의 120만 고해상도 이미지를 분류하기 위해 대규모 deep convolution network를 훈련했다. 신경망은 6천만 개의 파라미터와 65만개의 뉴런과 5개의 convolution layer(몇몇은 3개의 max pooling) 그리고 3개의 fc layer로 이루어져 있으며 마지막에는 softmax로 분류하는 구조로 이루어져있다. Introduction 현재 object recognition에서 머신러닝 기법을 필수적으로 사용하고 있다. 상대적으로 작은 데이터 셋으로는 간단한 object recognition에서 잘 사용할 수 있었는데, 실제 데이터셋은 많은 변

2022년 5월 11일
·
0개의 댓글
·

1. Image Classification 1

Course overview 사람의 지능은 인지능력과 지각능력 기억과 이해 및 사고능력 까지의 넓은 영역을 의미 AI는 바로 이 사람의 지능을 컴퓨터 시스템으로 구현하는 것 사람은 5개의 감각을 활용해 세상과 상호작용을 하며 학습을 한다. 또한, 5개의 오감 말고도 교차값과 다중값을 통해 더 유용한 정보를 취득할 수 있다. (eg. 얼굴과 눈을 인식하는 것 뿐만 아니라 표정을 파악) 사실 사람도 이러한 감각들의 사용법을 명확하게 알지 못하므로 이를 컴퓨터로 구현하는 문제는 단순한 문제가 아니기 때문에 활발히 연구되고 있다. 따라서, 인공지능을 구현하기 위해서는 도입부인 퍼셉트론이 불완전하면 사고 능력도 불완전하기에 지각 능력의 구현이 가장 중요하다. 우리는 ’뇌에서

2022년 5월 11일
·
0개의 댓글
·