출처 : 기계학습 - 오일석 (한빛아카데미)
MLP는 1980년대에 이미 아이디어가 나옴.하지만 은닉층을 여러 개 추가하여 MLP를 깊게 만들면 제대로 학습이 되지 않는 문제가 존재.
< 당시 문제점 >
1. Gradient Vanishing
: 여러 층을 거치면서 그레디언트값이 작아져 입력층에 가까워지면 변화가 거의 없는 문제.
2. 과잉적합 위험
3. 과다한 계산 시간
딥러닝의 가능성을 연 CNN
1) MLP보다 매개변수가 적음
:작은 크기의 컨볼루션 마스크를 사용하기 때문
2) weight sharing
: 모든 노드가 같은 마스크를 공유
-> 가장 먼저 성능을 입증받았고, CNN에서 개발한 여러 기법은 완전연결구조인 깊은 MLP, 피드백을 가진 RNN, 생성모델 RBM 등에 영향
값싼 GPU 등장
: 실험실에서도 손쉽게 병력 처리 가능. 학습시간 단축.
학습 데이터 증가
: 인터넷
계산은 단순한데 성능은 더 좋은 활성함수가 개발.
: 그레디언트 소멸 문제가 크게 완화.
학습에 효과적인 규제 기법 개발.
: weight decay, dropout, 조기멈춤, 데이터확대, 앙상들 등
layerwise pretraining
Hand-Crafted Feature
은닉층 1~2개만 가진 얕은 신경망에서 센서로 획득한 원래 패턴을 그냥 입력하면 특징 공간의 변환이 충분히 이루어지지 않음.
사람이 고안한 특징 추출 알고리즘으로 특정 벡터를 추출하여 신경망에 입력하는 접근방법을 사용.
-> 기계학습의 적용 범위가 분류나 회귀로 제한.
end-to-end learning
신경망에서는 특징 추출이라는 작업 자체도 기계학습으로 설계함.
-> 분류/회귀에 국한되지 않고 생성 모델이나 영상 화서 분할 등 다양한 문제를 푸는데 기계학습 적용이 가능해짐.