이미지를 보고 특징적인 edge등을 찾아서 라이브러리화하는 등의 노력을 통해 다른 이미지가 들어왔을 때 전반적인 상태를 비교하여 classifier하려고 함.이미지와 레이블을 가진 데이터셋을 모은다.머신러닝을 통해 image classifier을 학습한다.test 이미
Scores를 $f(x,W)=Wx$ 라고 할 때, $Li=\\sum{j \\neq yi}max(0,\\ s_j-s{yi}+1)$$L={1\\over N} \\sum{i=1}^{N}L_i$즉 1만큼의 margin을 두고 실제 값에서 1보다 큰 값만큼 멀어지면 그때 그 값
Image features vs ConvNets Feature Extraction : 사람이 직접 color, HoG 등의 feature을 뽑아내 이를 학습시킨다 ConvNets : 이미지 자체를 학습시킨다. Computational graphs 위와 같이 그래프를
Convolution Layer은 이미지에 filters를 가지고 계산하여 activation map을 생성한다. filter은 이미지를 슬라이딩하며 이동하고 같은 위치에서 dot product를 계산한다. filter의 depth는 input의 depth와 같다.(위
0 ~ 1 사이의 값을 갖는다.문제점x가 -10이나 10이 되면 gradient는 0이 되어버려 이 값이 backprop된다면 0이 전달되어 gradient가 사라진다.만약 input x가 모두 양수라면, w에 대한 gradient는 모두 양수이거나 음수의 방향이다.
보통의 네트워크에서는 ReLU가 가장 좋은 선택이다네트워크가 깊어질수록 가중치 초기화는 중요하며, 너무 작으면 gradient가 0이되어 학습이 안되고, 너무 크면 tanh같은 경우 saturate된다.CNN은 zero-mean을 주로 사용한다.binary classi
강의에서 장난식으로 이를 소개하는데, AMD gpu를 사용한다면 딥러닝에 매우 큰 어려움을 겪을 것이라고 한다 ㅋㅋㅋ Nvdia가 독점적이라고 한다.cpu와 gpu는 크게 core의 개수에서 차이난다. gpu는 수천개의 코어를 갖고 있다. 각각의 코어가 더 느린 클럭
2010년부터 ImageNet 데이터셋 (1.2 million data to classify 1000 categories)을 사용하여 대결하는 챌린지이다. 기존 mlp방식의 방식을 모두 제치고 2012년 AlexNet이 굉장한 성능을 보였다.Local response
Recurrent Neural Networks는 Non-sequential data에도 적용할 수 있다.기존에는 feedforward였던 image classification 문제를 glimpses(한 부분)들의 series를 보고 분류하는 문제로 변형하여 풀 수도 있
Attention
Neural Network가 training data를 어떻게 학습하고 무엇을 배우는가Visualizing and Understanding의 기술들을 재미있는 application에 적용네트워크 내부에서는 과연 어떤 것을 학습할까?Conv Net의 매우 첫번재 laye
Object Detection은 single RGB 이미지를 입력으로 받아서 objects set을 감지한다. 각 object는 1. Category label, 2. Bounding box를 갖는다. (bounding box의 x,y는 박스의 중심점이다)Object
Rich feature hierarchies for accurate object detection and semantic segmentation사실 강의를 봐도 아주 자세히 이해하기 힘들어서 논문을 보고 공부해야 알 것 같다. 시간나면 공부해보는걸로..근데 R-CNN을
많은 topics가 있지만 이 강의에서는 2가지 problems에 대해 다룬다. 왼쪽에서 처럼 2d input 이미지를 가지고 3d shape를 predict하는 것3d shape를 input으로 넣어서 이를 classification/segmentation 하는 것그
지난 강의에서 3d shape를 나타내기 위해 4D tensor을 사용했다(C x V x V x V). 이때 우리는 3차원 공간을 나타내기 위해 이미지보다 한차원을 더 사용했다.그런데 비디오를 다룰 때에도 4D tensor을 사용하는데, 이때 공간을 위한 3차원이 아니
$p(x)$ 는 각 가능한 $x$에 대해 양의 값을 가진다. 더 클수록 $x$가 더 그럴듯 하다.Density Functions는 nomalized되어있다:$$\\int_Xp(x)\\,dx=1$$확률의 합이 1이 되므로 만약 하나의 확률이 크다면 다른 확률들은 줄어들게
MNIST Dataset$x$ : 28 x 28 image, flattened to 784-dim vector$z$ : 20-dim vector (hyper-parameter)Decoder에서 output은 768이 아니라 784임.그렇다면 어떻게 이 모델을 학습시킬까