뉴럴 네트워크 결과와 실제 정답 레이블의 차이를 어떠한 형식으로 표현하고(loss function) 이 차이를 줄이고자 hyperparameter의 값을 조정하는 다양한 방법(optimization)들이 있다.loss function의 종류MSE(Mean Squared
CNN의 기초적인 개념 \-> https://velog.io/@ganta/7-%EA%B8%B0%EC%B4%88-%EC%88%98%ED%95%99-CNNCNN은 convolution layer, pooling layer, fully connected layer(
RNN의 기초적인 개념https://velog.io/@ganta/9-%EA%B8%B0%EC%B4%88-%EC%88%98%ED%95%99-RNNLSTM, GRU는 왜 탄생하였는가?Vanilla RNN의 모델을 보게 되면 H를 이용하v여 이전 값들에 대한 데이터의
Unsupervised Learning Supervised learning : 어느 데이터에 의하여 맞춰야 하는 값이 존재(라벨링이 되어 있음) 분류(classification) : 예측하는 값이 카테고리 형식인 것 예시 - 강아지 종 분류 문제 회귀
Bag of words란?단어의 순서는 고려하지 않고, 단어들의 출현 빈도에만 집중하는 텍스트 데이터의 수치화 표현방법Bag of Words의 표현 방법1, 문장의 단어들을 unique하게 모은 다음 사전 형식으로 관리한다.2, 각각의 단어들을 one hot 벡터 형식
Seq2Seq RNN의 Many To Many유형을 처리할 때 많이 쓰인다. 보통 기계어 번역 부분에 많이 사용되어지며 encoder와 decoder부분으로 처리가 되어지며 encoader부분은 입력 데이터를 처리하게 되고 decoader 부분은 출력값을 처리하게 된
Transformer Transformer란? 기존의 RNN방식에서 탈피하여 기존에는 Seq2Seq의 모델에 Attention을 사용하는 구조였으나 Attention만 사용하는 기법으로 만들어진 모델이다. 출처: Naver BoostCamp AI Tech - edw
GPT-1 GPT-has 1은 왜 탄생하였는가? 대부분의 딥러닝 학습은 라벨링이 되어있는 데이터를 활용하는 비지도학습을 하게 되는 데, 실제로 많은 데이터는 라벨링이 되어 있는 데이터를 구하기는 어렵다. 이에따라 텍스트 그대로를 활용하여 학습을 하는 unsupervi
✔️ CNN으로 학습된 neural network는 dataset의 특징들을 압축하여 저장한다.✔️ 대부분의 사진들은 보기 좋게 찍힌 경우가 많기 때문에(예를 들어 사진사에 의해 찍어진 사진) 이 데이터만 이용하서 학습을 진행하게 되면 실세계에 있는 다양한 상황의 데이
✔️ Sementic segmentation이란?기존은 CNN모델은 하나의 이미지 인풋에 대하여 분류하는 Task를 수행하는 것이였더라면 Sementic segmentation은 각각의 pixel을 카테고리 형식으로 분류하는 것이다.가장 처음 semantic segme
✔️ Sementc segmentation이미지를 클래스 마다 분류✔️ Instance segmentation, Panoptic segmentation이미지를 instance마다 분류Instance segmentation $\\subset$ Panoptic segmen
가벼운 모델 기본 컨셉 코드 ✔️ 메모리의 관점 reference : https://runebook.dev/ko/docs/python/library/sys ⭐️ 이러한 파이썬의 메모리를 잘 사용하면 적은 메모리를 통해서도 AI모델을 경량화 하여 동작시킬 수 있지 않을
⭐️ 해당 코드는 이분탐색으로써 특정 수를 찾는데 $O(logn)$이라는 시간이 걸리게 된다. 같은 기능을 하는 코드라도 어떻게 구현하느냐에 따라 시간 조건을 만족할 수도 만족을 안할 수도 있는데 경량화에서도 제한된 상황에서 Task를 수행해야 한다는 관점에서 보게 되
💡 Numpy와 List의 차이 numpy는 데이터가 연속적으로 배열 & numpy는 저장공간에 해당 값이 저장되어 있으나 list는 data가 저장되어 있는 주소값이 저장되어 있음으로 연산 속도의 차이가 난다.정리 링크 - https://velog.io/@
⭐️ Pruning은 사용하지 않는 weight에 대하여 mask를 씌워 계산하게 된다. 이러한 mask테크닉은 NLP모델인 transformer에서도 decoder부분을 학습 시킬 때 현재의 단어 이후의 단어들의 영향을 받지 않데 할 때 쓰이는 등 다양한 용도로 사용
기본 컨셉 코드 ⭐️ 결론부터 얘기하자면 파이썬은 소수점을 부동 소수점으로 처리하여 완전하게 정확한 수를 저장하기 힘든 상황이 벌어질 수 있다. 예를 들어 0.3이라는 수를 2진법으로 표현해 보면 다음과 같다. 0.3 \* 2 = 0.6 => 0 0.6 \* 2 =
⭐️ 결론부터 얘기하자면 Knowledge distillation에서는 Teacher와 Student의 개념이 나오고 진짜 정답과, Student모델이 Teacher모델을 따르도록 학습이 되어지는데 진짜 답에서는 hardmax(argmax)를 따르도록 하고 Studen