Computer Vision이란? High-level description은 representation이라고도 불림 CV는 Computer Graphic가 하는 일의 반대 사람의 시각 구조도 불완전하기 때문에 이를 어떻게 보완해야 할지도 생각해야함 DeepLab
Detection with Transformer
CNN 시각화 CNN은 non-linear activation function이 이어진 연산기 하지만 black box라고 불릴만큼 해석이 어려움 CNN을 시각화 한다는 것은 디버깅 도구를 갖는다는 것과 같은 의미 안에 뭐가 들어있고, 왜 좋은 성능이 나오고, 어떻
Exercise Saliency map을 구하기 위해서 필요한 기본적인 구현 디테일을 익힘 Autograd: Automatic gradient API 대부분의 DL library의 고유한 기능 행렬 연산 뿐만 아니라 Forward, backward pass 계산을 가능하게 해줌 Computational graph라는 구조를 이용해 automa...
같은 물체라도 instance에 따라 구분Semantic segmentation + Digtingushing instances기존의 Faster R-CNN과 거의 동일한 구조RoIAlign이라는 새로운 pooling layer를 제안, interpolation을 통해
Condition이 주어졌을 때, 조건에 해당하는 결과가 나오는 형태기존 generative model은 image나 sample을 생성할 수는 있지만, 조작은 할 수 없었음Conditional generative model은 user의 의도를 반영해 응용 가능성을 높
Multi-modal Learning 한가지 타입의 data가 아니라 여러가지 타입의 data를 함께 사용하는 방법 CV라 vision centric하게 다룰 예정 Challenges Data 표현 형태가 제각각이라 다루기가 어려움 정보의 양과 feature s
Image captioning 구현 구조 분석Pre-trained CNN을 사용Resnet101의 마지막 2개 layer는 linear, pooling layer로, logit을 출력하기 때문에 제외우리가 필요한 것은 spatial feature를 유지하는 tenso
현실은 3D라 현실 관련 task는 모두 3D를 다룸AR/VR, 3D printing, medical application 등 다양한 application이 존재Image는 3D를 2D로 투사(projection)한 형태Triangulation(삼각측량법)으로 2D i
https://stackoverflow.com/questions/59013109/runtimeerror-input-type-torch-floattensor-and-weight-type-torch-cuda-floatteinput, label, model 중 일부