부트캠프에서 기초 다지기가 끝나고 본격적인 Computer Vision에 대해 배우는 시간이 시작되었다. 단순히 이미지쪽이 좀 더 재미있고 해보고 싶다는 생각으로 이 분야을 지원하게 되어서 학교에서 배웠던 CNN기초 이론 정도만 알고 있었다. 이 부트캠프를 통해 많은
우리가 학습하는 데이터는 종종 실제 데이터의 복잡한 분포를 모두 cover하지 못하거나 근본적으로 bias되어 있는 경향이 있다.많은 데이터를 이용해서 평균을 취했을 때 정말 이미지가 다양하고 가지각색이라면 밑의 그림처럼 특정 패턴이 보이면 안된다.이렇게 실제 데이터와
patches = model.patch_embed(img_tensor) \`\`\`VIT의 multi-head는 12개로 구성되어 있다.이것에 맞춰서 encode 코드를 구현하여 attention matrix를 시각화 해보자
Instance segmentation sematic segmentation은 각 픽셀이 어떤 category에 속하는지 알 수 있고 분류해준다. 각각의 instace를 구분해 주지 않는다. 그와 달리 instace segmentation은 각각 개별적인 instan
AI에서 멀티모달이라는 용어를 종종 들어봤을 것이다.vision data와 text data 등 이런 data들이 각각 개별적으로 사용되는 것은 unimodal이라고 한다.vision data, audio data, text data등 모두 포함하여 사용하는 것은 mu