large-scale NLP 모델은 signs of saturation없이 language 작업의 성능을 현저하게 향상시켰고 few-shot capabilities의 인간의 성능을 보인다. 이 논문은 CV에서 large-scale models을 탐구하는 것을 목표로 한
일관성있고 의미있는 text를 자동으로 생성하는 기계번역, 대화 시스템, Image-caption 등에서 많은 응용분야를 가지고 있다. Reinforcement learning policy로써 generative model은 text생성에서 유망한 결과를 보여줬지만 s
최근 자동차 충돌 대회에서 huggingface의 timesformer을 사용해보았다. 실제 핵심 기술을 자세히 알고자 위 논문을 리뷰해보았다. Abstract video classification에 self-attention에만 기반한 conv연산이 없는 접근방식
abstract 이 논문은 new approach to object detection인 YOLO를 제시한다. 이전 object detection은 detection에서 classifiers을 수행한다. 하지만 YOLO는 spatially separated boundi
Abstract large-scale pretrained foundation models은 빠르게 down- stream tasks로 바꿀 수 있어서 vision에서 인기가 많다. 이 논문은 Contrastive Captioner (CoCa) 를 소개한다. cont
CoCa논문을 읽으며 알게된 사실이 주요 기술이 CLIP이나 SimVLM을 모방했다는 것이다. 그래서 CLIP을 우선적으로 공부 후 찾아봐야겠다 결정하고 CLIP 논문을 분석했다.computer vision의 SOTA는 predetermined object catego
오랜만에 수준이 높은 구현 문제를 풀어봤다.사실 겉으로는 골드1이지만 실제 난이도는 좀더 쉬웠고 어려운 점은 반례를 생각하는 점이었던 것 같다.두번 틀렸었는데 두 공이 겹치지 않음을 구현해야 했으며 빨간 공이 구멍에 빠진 후 파란공이 안빠져야지만 통과거나 파란공이 빠지
최근 Image classification 문제를 해결해보면서 ViT를 사용해보았다.ViT의 논문을 읽고 코드 작성법을 익혀서 사용해보며 작은 데이터에 최적인 더 작은 모델을 찾게 되었고 SwinT의 논문을 읽게 되었다.이 둘을 CIFAR-10 데이터로 2epoch의
이번 시간은 generator 모델을 주로 다뤘다. VAE나 GAN을 스터디때 많이 다뤄서 정말 반가웠다. supervised & unsupervised 보통 ML 입문자들이 큰 부류로 나눌때 먼저 배우는 걸 늦게 가르쳐줘서 특이하단 생각도 들었다. supervi
Visualizing and Understanding 첫번째 layer의 weight를 시각화해보면 image에서 oriented edge를 찾는걸 볼 수 있다. Feature을 찾는 것이라 볼 수 있다. 필터들이 layer가 깊어지면서, 합성곱이 이뤄지고 점점 더
요즘 ViT를 활용한 Image Classification을 하고 있는데 ViT의 발전된 형태가 Swin이며 SOTA 모델임을 들었다. 그래서 논문을 통해 Swin Transformer을 잘 이해해보고 싶어서 공부하게 되었다. Abstract 이 논문은 Swin T
저번 스터디때 DALL-E 모델 설명을 들었었는데 VAE 개념이나 GPT-3 개념이 제대로 없어서 이해하는게 쉽지 않았다. 그래서 이번 기회에 GPT-3를 확실히 배우고 DALL-E 같은 복합적 모델을 이해해보고자 한다. Background language model
오늘도 CS231n Lecture 11을 요약 정리해 보겠다.지금까지 image classification task를 다뤘다면 이번에는 새로운 task를 다뤄보았다.semantic segmentation은 각각 필셀 별로 카테고리를 항당하는 방법으로 픽셀로 모든 사물을
내가 딥러닝을 시작하게 된 NLP 분야의 가장 기초가 되는 RNN을 수업 듣게 되어서 굉장히 반가웠다. RNN RNN은 주로 Sequential 데이터 시계열데이터에서 주로 사용되고, 보통 주식, 공장, 비디오, 문자 등 다양한하게 쓰인다. Vanlilla Ne
Transfer Learning을 RL을 보다 우연히 발견했는데 처음에는 progressive learning을 조사하려다 국내에서 DEN이라는 굉장히 놀라운 논문이 있다고 해서 궁금함에 조사하게 되었다.이 논문은 LIFELONG LEARNING을 위한 Dynamica
스터디원의 발표였던 Batch Normalization 논문을 스티디원 발표의 순서에 따라 정리해보겠다.학습 속도 개선 -> 큰 learning rate 사용 가능가중치 초기화에 대한 민감도 개선Regularization(일반화) 효과When the input dist
스터디원이 DDPM을 발표했다. 그래서 나도 이 논문을 읽어보고 정리해 보고자 한다.latent variable models인 Diffusion Probabilistic model을 사용한다고 한다.CIFAR10을 사용해서 이미지 생성을 했으며 ProgressiveGA
이번 시간에는 CNN의 대표적인 모델들을 배워보았다. CNN모델의 시작은 LeNet이고 최초로 Convolution 연산을 적용한 모델이다. 이후 ImageNet대회에서 2012년 오차율을 굉장히 줄인 AlexNet은 잠잠했던 CNN연산을 사용해 성공적인 결과를 냈다
그저께 스터디에서 스터디원이 GAN논문을 발표했다. GAN의 대략적 내용은 알지만 Unsupervised Learning 이라는 점에서 굉장히 특별하고 유용하기 때문에 그 내용을 자세히 들여다 보고자 나도 논문을 읽어보았다.adversarial process -> si
오늘은 스터디원이 발표 예정인 논문을 직접 읽어보려고 한다. 기본적으로 알고가야할 부분인거 같다. uncertainty의 유형 Out of distribution test data 한번도 학습할 때 사용하지 못한 유형의 데이터가 테스트 시 사용되는 경우 Ex) 여러