ResNet
Transformer : Attention is All You Need
YOLO : Unified, Real-Time Object Detection
GPT1 - Improving Language Understanding by Generative Pre-Training
GPT1은 Language model을 사용하는데, language model은 무엇이며 왜 language model을 사용하는지 알아보자!언어 모델(Language Model)은 문장이 얼마나 자연스러운지 확률적 계산을 통해 문장의 특정 위치에 출현하기 적합한 단어
주로 머신러닝은 이 두 모델의 학습방법으로 구분된다.이 포스터의 요점은 두 모델의 학습방법 차이점은 무엇이며, 각각은 새로운 데이터가 들어왔을 때 어떻게 구별하는가에 대해 다뤄보겠다.이 두 모델은 Pattern recognition에서 classification의 경우
베이즈 정리?베이즈 정리는 아래와 같이 구성할 수 있으며, 각각의 역할을 잘 확인해 봐야 한다!참고 : https://aimaster.tistory.com/79
U-Net: Convolutional Networks for Biomedical Image Segmentation
NCF : Neural Collaborative Filtering
추천 시스템은 사용자가 관심을 가질만한 콘텐츠들을 추천하는 것입니다.사용자의 선호도 및 과거 행동을 토대로 사용자에 적합한 콘텐츠 추천을 제공합니다.이미 현대 사회에서 추천 시스템은 다양한 분야에서 활용되고 있습니다. 예를 들자면 흔히 사용하는 유튜브나 넷플릭스, 왓챠
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding
우수한 딥러닝 모델을 만들기 위해서는 많은 수의 데이터가 필수적입니다. 하지만 데이터의 수가 많지 않은 경우나 비용이 많이 드는 경우가 존재할 수 있습니다.이를 해결하기 위한 방법이 Transfer Learning이며, 이는 특정 분야에서 학습된 신경망의 일부 능력을
GAN?실제로 존재하지는 않지만, 있을법한 데이터를 만들 수 있는 생성모델 중 하나입니다.확률 분포를 이용(학습)키와 아이큐 같은 데이터는 1차원으로 표현될 수 있지만, 이미지 데이터는 많은 픽셀들로 구성되어 있고, 각 픽셀들 또한 RGB로 3개의 채널을 가지고 있기
최근 소개되었던 conti Skip-gram model은 대량의 정확한 구문 및 의미적 단어 관계를 효율적으로 표현할 수 있는 방법입니다. 본 논문에서는 벡터의 퀄리티와 training 속도를 향상시킬 수 있는 방안들을 말합니다.자주 사용되는 단어에 대한 subsmap
임베딩은 비정형화된 텍스트 데이터를 숫자 데이터로 바꿈으로 사람의 언어를 컴퓨터가 이해할 수 있게 컴퓨터 언어로 번역하는 것을 의미합니다.임베딩의 표현 방법에는 크게 두 가지가 존재하는데, 첫 번째는 단어의 원핫벡터 표현이며 두 번째는 단어의 밀집 표현입니다."희소 표
Skip-gram model은 중심 단어(Center Word)를 바탕으로 주변 단어들(Target Word)을 예측하는 방법입니다.예시 문장 : The fat cat sat on the table'sat'을 이용하여 주변 단어를 예측합니다. 앞뒤 몇 개의 단어를 활용
Hierarchical softmax : 계층적 softmax Skip-gram model에서 softmax사용시에 계산 복잡성을 해결하기 위한 방법입니다. 만약 하나의 중심단어의 embedding 시에 100만개의 단어가 corpus에 있다면, 벡터의 내적을 10
힌지 손실은 통계적 분류 훈련에 자주 사용되는 손실 함수입니다. 학습 데이터 각각의 범주를 구분하면서 데이터와의 거리가 가장 먼 결정 경계를 찾는 역할을 수행하기에, 특히 SVM에서 사용됩니다. 힌지 손실은 아래와 같습니다.이를 이해하기 위해 SVM의 가설 함수부터 살
Word2Vec 1이라고 불리는 논문이며, 텍스트 데이터를 벡터화하기 위해 가장 많이 사용된 원핫인코딩 방식 대신 CBoW와 Skip-grma을 이용하여 Word Embedding을 효율적이고 정확하게 향상시켰다는 평가를 받습니다.
오늘은 대망의 VAE를 리뷰해보겠습니다! 이번 논문은 수식이 많아 까다롭게 느껴질 수 있지만, 천천히 논리들을 따라가며 리뷰를 진행해보겠습니다. 논문을 볼 때 마다 읽다보면 오 그렇구나 하며 읽지만, 사실 이것을 애초에 어떻게 생각해냈을까 생각해보면 정말 대단한 것 같
기본적인 뉴럴 네트워크의 weight를 조정하는 과정에서 보통 Gradient Descent라는 방법을 사용합니다. 이 방법은 네트워크의 파라미터를 θ라고 했을 때, 네트워크에서 도출되는 결과값과 실제 값의 차이를 정의하는 Loss function(J(θ))의 값을 최
iid iid : Independent and identically distribution : 독립 항등 분포 이는 random variable이 위 영어 그대로 independent 독립적이고, identically distribution 같은 확률 분포를 가지면
몬테 카를로 알고리즘은 폴란드계 미국인 수학자 스타니스와프 울람이 제안한 알고리즘입니다.이는 우리가 원하는 결과값에 대해 정확한 값을 얻는 방법은 아닙니다. 몬테 카를로 알고리즘은 무작위로 난수(랜덤 수)를 생성한 후, 무작위 난수를 기반으로 생성해서 구하고자 하는 결
본 논문은 2020년 Open AI 에서 NIPS에 발표한 논문입니다.GPT-3는 기존의 가장 큰 모델보다 거의 10배 많은 파라미터를 넣을 정도로 큰 모델을 사용합니다.Model scaling-up을 통해 few-shot learning(풀고자 하는 몇 개의 예시만
Lanugage Model에 전달하는 질문이나 요청을 사용자가 응답을 유도(prompt)한다는 의미에서 프롬프트라고 합니다. 이와 같이 언어 모델이 원하는 결과를 얻기 위해 text prompt를 사용하고, 이를 공들여 만들고 최적화하는 과정을 프롬프트 엔지니어링이라고
말 그대로 prompt 내 맥락적 의미(in-context)를 모델이 이해하고(learning), 이에 대한 답변을 생성하는것이며, 프롬프트의 내용만으로 하고자 하는 task 를 수행하는 작업입니다.in-context learning은 프롬프트 엔지니어링을 통해 이루어
기존에 이미지에 attention을 취하는 등의 작업은 이루어졌지만, 주로 혼합되어 사용되었습니다. 본 논문은 Transformer를 이미지에 적용하여 처음으로 우수한 성과를 낸 모델이자 시초입니다.
Masked Language Model이 연산적으로 비효율적이기에, 연산적으로 효율성을 개선하고자한 구글 논문입니다.우선 언어 모델이 어떻게 발전되어 왔는지 간략히 설명해보겠습니다.가장 먼저 제안된 언어 모델은 '1) 통계적 statiscal 언어 모델' 입니다.이는
Image Caption Generate?이미지의 형태를 text로 문장을 생성하는 기술!Show and Tell : A Neural Image Caption Generator쉽게 말하자면 CNN net을 통해 이미지 특징을 추출 후 RNN을 거쳐 문장을 생성하는 것!
![](https://vel
![](https://vel
본 논문은 Visual tracking에 관한 논문으로, 기존의 tracking과정에서 발생하는 uncertainty를 잘 잡지 못 하는 단점을 지적하며 나왔습니다.Q. 그렇다면 어떤 것이 이 불확실성을 야기시킬까요?현재 대부분의 영상 추적 알고리즘은 confidenc
본 논문은 뇌 MRI 데이터를 분석하는 방법 중 하나인 복셀 기반 형태 변화 분석 (Voxel-Based Morphometry, VBM)에 관해 설명합니다.VBM은 뇌 MRI 이미지를 서로 다른 사람의 뇌 해부학적 차이를 파악하는 데 사용됩니다.우선 전체적인 단계를 설
이전 포스터에서 "Voxel-Based Morphometry—The Methods" 로 복셀에 관해서 뇌 구조 분석을 어떻게 하면 좋은 성능 및 효율로 분석할 수 있을 지에 대한 논문을 다루어 보았습니다.그에 이어 이번에는 실질적인 VBM을 활용해서 어떤 인사이트를 도
라돈 변환은 물리 및 생명 과학에서 널리 사용되며, 그 중요한 응용 중 하나는 현대 건강 검진에서 중요한 역할을 하는 X선 컴퓨터 단층 촬영(CT)입니다. 기존에는 재구성 과정이 해당 라돈 역방향을 근사하기 위해 여러 가지 단계로 처리되어왔습니다.FBP 알고리즘은 X-
멀티 모달은 아래와 같이 다양한 task에 대하여 정보를 추출하는 것을 의미합니다.Unimodal vs Multimodal가볍게 둘을 비교하자면 Unimodal의 경우는 '하나의 modality만 활용하여 풀고자 하는 문제를 해결하는 모델'이며, Miltimodal은
Brain Computer Interface 기반의 중요도에 비해, 복잡하고 많은 잡음이 존재하는 EEG데이터의 분석 및 예측 어려움이 존재⇒ 본 논문의 ATCNet을 제시하며, 우수한 MI 분류 score를 기여(MI 작업 종류: 왼손 상상 (1) / 오른손 상상 (
본 논문은 FuseMix라는 방법론을 제안합니다. 이는 기존의 단일 모달 인코더를 활용하여 멀티모달 모델을 구축하는 데 초점을 맞춘 데이터 효율적인 방법론이며, 대규모 데이터와 컴퓨팅 자원 없이도 멀티모달 정렬을 효과적으로 수행할 수 있는 방법을 제시합니다.멀티모달 정
멀티모달 학습은 다양한 감각 정보를 통합하여 세상을 더 종합적으로 이해하는 데 도움을 줍니다. 여러 입력 모달리티를 활용하면 모델의 성능이 향상될 것으로 기대되지만, 실제로는 멀티모달 모델이 단일 모달 모델보다 성능이 우수하더라도 모든 모달리티가 제대로 활용되지 않는
최근 다중 모달 대비 학습(Multi-modal Contrastive Learning, MMCL)은 시각적 작업에서 뛰어난 성능을 보여주며 많은 주목을 받고 있습니다. 본 논문에서는 MMCL이 시각적 표현을 어떻게 효과적으로 추출하는지에 대한 이론적 이해가 부족한 상황
이 논문에서는 알츠하이머병(Alzheimer's disease, AD)의 조기 예측을 위한 새로운 접근 방법을 제시하고 있습니다. AD를 조기에 발견하면 인지 기능 저하를 보다 효과적으로 예방할 수 있기 때문에, 이러한 연구는 매우 중요한 의미를 갖습니다. 최근에는 휴
기계 학습에서 tabular 데이터는 매우 흔하게 사용되며, 데이터 과학자들은 주로 가능한 모든 기능을 포함시키거나, 직접 새로운 기능을 만들어냅니다. 하지만 자칫 Noise Feature가 들어가게 되면, 모델이 과적합(overfitting)될 위험이 커지기 때문
Momentum Contrast for Unsupervised Visual Representation Learning ![](https://velog.velcdn.com/images/lee9843/pos
본 논문에서는 딥 강화학습을 이용한 자동화된 암호화폐 거래 시스템을 제안하고, 특히 비트코인을 대상으로 연구가 진행됩니다. 두 가지 강화학습 알고리즘인 Double Deep Q-Network(D-DQN)과 Dueling Double Deep Q-Network(DD-DQ
본 논문에서는 Transformer 기반의 이미지 초해상도(SR) 모델이 성능은 뛰어나지만, 입력 정보를 충분히 활용하지 못하는 한계를 발견했습니다. 이를 해결하기 위해 Hybrid Attention Transformer(HAT)라는 새로운 구조를 제안합니다.기존 Tr