데이터를 모으는 방법은 크게 두 가지로 나눌 수 있다.Public Dataset이미 공개된 데이터셋 중에서 목적에 맞는 데이터셋이 있다면 활용하는 것손쉽게 라벨링된 실제 이미지를 확보 가능하기 때문에 데이터 수집 시 제일 먼저 하는 활동하지만 원하는 데이터가 없을 수
예측하고자 하는 정보일반 객체 검출 : 해당 객체의 클래스와 위치를 예측하는 문제글자 검출 : Text 라는 단일 클래스이기 때문에 객체 위치만 예측하는 문제객체의 특징일반 객체 검출 : 비교적 낮은 밀도글자 검출 : 매우 높은 밀도, 극단적 종횡비, 특이 모양(구겨짐
Optical Character Recognition사람이 글자를 읽을 때먼저 글자를 찾고찾을 글자를 인식한다.따라서, OCR도 글자를 찾는 모듈과 글자를 인식하는 모듈로 이루어져 있다.글자를 읽는다 = 글자 영역 찾기 + 영역 내 글자 인식 = OCROffline H
보통 수업/학교/연구에서는 정해진 데이터셋/평가 방식에서 더 좋은 모델을 찾는 일을 한다.정해진 데이터셋에서 모델 구조 또는 학습 방법을 바꿔가면서 성능이 최대가 되는 모델을 찾아가는 방법하지만, 서비스 개발 시에는 데이터셋이 준비되어 있지 않고, 오로지 요구사항만 존
3D가 AI에서 중요한 이유우리가 3D세상에 살고 있기 때문에, AI를 통해 사람들에게 도움을 주기 위해서는 3D에 대한 이해가 필요하다.그렇다면 우리는 3D를 어떻게 관찰하고 인지할 수 있을까?3D를 2D로 변환하여 관찰하는데 이를 projection이라 한다.e.g
사람이 여러 개의 감각기관을 활용하여 문제를 해결하듯이 딥러닝에도 이를 적용해보자.한 type의 데이터가 아닌 다른 특성을 갖는 데이터 type들을 같이 사용하는 활용하는 학습법 e.g.) Text , audio data 각각의 데이터들은 서로 다른 타입으로 자료구
sketch된 영상을 실제 사진과 같은 이미지로 변환해주는 과정을 생각해보자어떻게 보면 언어가 다를 때 번역하는 것과 같아서 서로 다른 두 도메인을 translation한다는 task이다.이 때 하나의 정보가 주어졌기 때문에, 이것을 condition되었다 또는 조건이
Automatic gradient의 약자로 Automatic differentiation라고도 불린다.기본적으로 행렬 연산을 하는 라이브러리로 대부분 DL library의 고유한 기능이다.과거에는 gradient를 일일히 손으로 계산하고 backward 를 수식으로 전
black box 모델인 CNN의 내부 동작을 가시화하는 방법들에 대해 설명CNN을 구성해서 어떤 task의 데이터셋으로 입력과 출력을 주고 학습을 했음에도 잘 되지 않는 경우가 있는데 이 때는 왜 안되는걸까? 를 알아보기 위해 시각화를 진행한다.ZFNetdeconvo
지금까지의 기술은 영상을 인식하고 semantic segmentation까지 할 수 있었다.여기서 더 advance된 기법은 자동차들 중에 같은 종류의 자동차가 있는지와 같은 인스턴스 구분이 가능해진 Instance segmentation과 panoptic segmen
지난번의 image classification을 영상 단위가 아닌 픽셀단위로 수행하는 것하나의 픽셀이 어느 객체인지를 구분하는 문제 → 하나의 영상 안에 있는 모든 객체를 검출semantic segmentation을 사용하게 되면 object들이 나눠지게 되고 이 특징
AlexNet부터 VGGNet으로 가면서 더 깊은 네트워크가 더 좋은 성능을 낸다는 것을 확인하였다.모델의 깊으면 더 복잡한 관계에 대해 학습이 가능하고, receptive field를 가지기 때문에 신중히 결론을 내릴 수 있기에 좋은 성능이 나온다.이 논리라면 깊이를
우리가 학습에 사용하는 데이터는 모두 사람이 보기 좋게 찍은 사진들이지만, 실제 데이터들은 어떻게 들어올지 모르는 데이터들이다.우리의 데이터셋이 real data를 충분하게 표현하지 못한다면 여러 문제가 발생한다. eg ) 밝은 영상으로만 이루어진 데이터로 모델을
Region proposal 단계가 없고, 전체 이미지에서 bounding box 예측과 classification을 동시에 예측한다.따라서, 이미지 또는 물체를 전체적으로 관찰하여 추론하는 것으로 맥락적 이해가 높은 모델이다.CNN의 정확도를 향상시키는 feature
Sota를 달성한 object detection network들은 객체 위치를 예측하기 위해 region proposal 알고리즘에 의존한다. SPPnet과 Fast R-CNN 같은 발전으로 네트워크 실행시간을 단축시킬 수 있었지만, region proposal을 계산
Fast R-CNN은 R-CNN의 한계점을 보완하고자 제안되었다. region of interest 마다 CNN 연산을 하기 때문에 속도가 느리다. → ROI pooling을 통해 해결multi-stage piplines이기 때문에 end-to-end로 학습하지 못한다
object detection의 성능은 지난 몇 년 동안 정체되었다. 지금까지 최고의 성능을 나타내는 방법은 여러 low-level의 이미지 특징을 high-level 특징과 결합하는 복잡한 앙상블 시스템이었다.논문에서는 이전 최고 결과와 비교하여 mAP를 30% 향상
Abstract신경망이 깊어질수록 학습하기는 어렵다. 이 논문에서는 이전의 네트워크보다 상당히 깊은 네트워크를 학습하기 용이하게 하기 위한 잔차 학습(residual learning)을 제시한다. 함수를 새로 만드는 것 대신 잔차를 학습에 사용하는 것으로 layer를
논문은 큰 이미지 인식 설정 시 Convolution 네트워크의 깊이가 정확도에 미치는 영향을 조사한다. Vggnet은 3x3의 작은 filter들을 이용하여 네트워크를 점점 깊게 쌓으며 검증하였고, 그 결과 상당한 개선이 이루어졌다. 또한, vggnet을 이용해 Im
AbstractImageNet LSVRC-2010 대회에서 1000개의 클래스의 120만 고해상도 이미지를 분류하기 위해 대규모 deep convolution network를 훈련했다.신경망은 6천만 개의 파라미터와 65만개의 뉴런과 5개의 convolution lay