Visual intelligence가 무엇인지 알기 위해서 machine intelligence와 machine perception이 무엇인지부터 알 필요가 있다. 가장 먼저 왜 visual intelligence가 중요하며 인공지능과 어떠한 연관성이 있는지 알아보고자
Focus, Pinhole and Lens 이번에는 카메라에 대해서 자세하게 살펴보고자 한다. 먼저 우리가 흔히 사용하는 디지털 카메라가 아니라 좀 더 원시적인 pinhole 카메라에 대해서 알아볼 것이다. 그래서 가장 먼저 focus와 pinhole, 그리고 lens
Image processing basic 이번에는 image를 어떻게 processing하는지 알아보고자 한다. Image processing이라는 것은 image를 변환하는 것이다. 여기에는 크게 2가지 카테고리가 있다. 하나는 영상의 컨텐츠는 바뀌지 않고 안에 있
Image downsampling 만약 상반신이 찍힌 사진을 우리가 화면을 통해서 본다고 했을 때, 사진이 너무 크면 상반신 전부를 한번에 보기 힘들 것이다. 이러한 경우에는 사진의 크기를 줄여서 화면에 담아야만 할 것이다. Naive image subsampling
Detecting corners 이번에는 영상에서 corner를 찾아보고 왜 corner가 중요한지에 대해서 알아보고자 한다. 영상에서 corner을 왜 찾아야만 하는 것일까? 이번부터는 영상과 영상 사이의 관계성에 대해서 알아볼 것이며 여기서 corner가 굉장히 중
일반적으로 사진을 보면 모든 영역이 중요한 정보를 가지는 것은 아니다. Key point는 중요한 feature를 가지고 있는데, 이러한 feature를 어떻게 detection할 수 있는지는 이전에 알아보았고 이번에는 찾아진 feature들을 통해서 두 image
2D transformation을 image domain에서 transformation 관계를 알아보기 위해서 warping에 대해서 먼저 알아야 한다. Image transformation에는 photometric transformation과 geometric tra
Projective geometry는 image transformatin을 modeling하는 방법 중 하나인데, 이 방법이 기존의 2D transformation 방법과 어떻게 다른지 알아보고자 한다. 2D transformation을 modeling하기 전에 ho
이번에는 direct linear transfomration(DLT)이라는 parameter estimation 방법에 대해서 알아보고자 한다. 2D homography estimation을 어떠한 식으로 할 수 있는지 알아보려는 것이다. 이전까지는 2개의 대응점이 있
Linear least square estimation은 linear한 경우밖에 다루지 못하지만 그래도 굉장히 중요한 initial point나 대략적인 solution을 제공할 수는 있다. 이러한 방법은 outlier를 처리하지 못하는 단점이 존재한다. Outlier
이번에는 카메라에서 3D pose를 추정하는 삼각측량법(Triangulation)에 대해서 알아보고자 한다. Triangulation은 image 2개가 있을 때 한 point가 서로 correspondence 관계에 있다고 하면은 카메라 좌표로부터 ray가 있다고
Data augmentation 인공지능 모델을 학습시킬 때 쉽게 성능을 향상시킬 수 있는 data augmentation 기법에 대해서 알아볼 것이다. Learning representation from a dataset 기본적으로 machine learning
어떻게하면 기존에 이미 학습이 된 정보를 활용할 수 있는지, 그리고 학습할 때 unlabeled data를 원하는 target task에 대해서 어떻게 하면 실용적으로 성능을 끌어올릴 수 있는 방향으로 사용할 수 있는지에 대해서 알아보고자 한다. Leveraging
이번에는 neural network를 학습할 때 사용할 수 있는 유용한 기법들과 전략에 대해서 알아보고자 한다. 특히, 이번에 알아보는 것은 한번만 setup해주면 바꾸지 않아도 되는 것들에 대해서 알아보려고 한다. Activation functions 많은 act
이번에는 neural network를 학습할 때 주의해야하고 꼭 알아두면 좋은 tip들에 대해서 알아보고자 한다. 특히, training 과정에서 변화시켜야 하는 parameter들에 대해서 집중해서 보고자 한다. 기본적인 learning rate, regulariza
Semantic segmentation은 image의 각 픽셀마다 어떠한 category에 속하는지를 분류하는 인식 문제의 일종이라고 볼 수 있다. Image classification의 경우 image가 있으면 어떠한 category에 속하는지 하나의 class로
U-Net U-Net은 FCN 이후에 나온 semantic segmentation의 대표적인 모델이다. U-Net은 fully convolutional network로 FCN과 동일한 성질을 공유한다. FCN과 많은 공통점을 가지면서도 큰 차이점이 존재하는데, 이러한
Instance segmentation 기존의 semantic segmentation은 여러 자동차가 있더라도 해당 픽셀들은 모두 자동차에 소속된 픽셀들이기 때문에 모두 자동차라고 인식이 되었다. 하지만 instance segmentation은 자동차 개별마다 자동차
Landmark localization은 facial keypoint나 human pose에서의 skeleton을 구성하는 기본적인 요소인 anchor point들을 찾는 task이다. 이를 위해서 landmark라는 단어의 정의가 먼저 필요하다. Facial lan
이번에는 multi-modal learning에 대해서 알아볼 것인데, 그중에서도 visual data를 중심으로 어떻게 text data를 다루는지에 대해서 알아볼 것이다. 사람이 이 세상과 소통하기 위해서는 오감을 활용하곤 한다. 그래서 눈으로는 보고 귀로는 들으며
먼저 text가 어떻게 digital data로 표현이 되는지 알아볼 것이다. 대표적인 방법으로 text embedding이 있다. 여기서 중요한 점은 문자 단위가 아닌 단어 단위로 나누는 것이다. 문자 단위로 text를 나누게 되면 machine learning 알
이번에는 multi-modal 중에서 visual data와 audio data를 함께 활용하는 learning에 대해서 알아보고자 한다. 그래서 visual data를 중심으로 audio data를 활용하거나 visual data와 audio data를 합성해서 활용