1) 확률론적 모델링
: 나이브 베이즈 알고리즘
2) 초기 신경망
3) 커널 메서드
다음 두 단계를 통해 경계 찾는 것
1) 결정경계는 hyper plane으로 표현할 수 있는 새로운 고차원 표현으로 데이터 사상
2) 초평면과 각 클래스의 가장 가까운 데이터 점 사이의 거리를 최대화하는 식으로 우수한 결정 경계 계산해내기 가능인데 이 단계를 주변 최대화라고 함
=> 하지만 실제 구현 어려운 경우 많음
==> 커널 트릭(kernel trick) needed
: 요지 : 우수한결정 초평면을 새로운 표현 공간에서 찾고자 명시적으로 새 공간 속의 점들의 좌표 계산하지 않아도 된다는 점
=> 이 일은 핵함수(kernel function)으로 효율적으로 사용할 수 있기 때문
: 핵함수는 초기 공간의 두 점을 표적표현공간에 있는 이들 점 사이의 거리에 사상함으로써 새 표현을 명시적으로 계산하는 일을 완전히 우회해 계산
4) 결정 트리
: 입력 데이터 점을 분류하거나 입력에 따라 출력값 예측할 수 있게 해주는 것
=> 그래이디언트 부스팅 머신 : 이전모델 약점을 해결가능한 새 모델을 반복적으로 훈련해 머신러닝 모델을 개선하는 방법인 기울기 증폭을 사용, 기울기 증폭 기법이 결정트리에 적용될 시사용하면 더 뛰어난 모델이 됨 -오늘날 인식하지 못하는 데이터를 처리하기 위한 최고의 알고리즘 중 하나
머신러닝 작업 흐름에서 가장 중요한 단계인 특징공학을 완전히 자동화해 문제를 훨씬 쉽게 해결 가능
머신러닝 기법인 셸로우 러닝에선 입력데이터를 보통 svm, 또는 결정 트리와 같은 단순 변환을 통해 한 개 또는 두 개의 연속표현공간으로 변환하는 일과 관련이 있었다 - 그러나 복잡 문제에 필요한 정제된 표현은 일반적으로 이 기법으론 얻을 수 X
==> 즉, 데이터를 적절히 표현하는 계층을 수작업으로 다뤄야 함 =>>> 이를 특징공학이라고 함
딥러닝은 이 단계를 완전 자동화
기술자가 직접 작성하지 않고도 모든 특징을 한번에 배우게 됨
이로 인해 머신러닝 작업 흐름 아주 단순, 정교한 다단계 파이프라인을
단순 엔드투엔드 딥러닝모델로 대체하는 경우 多
딥러닝이 혁신적인 점은 모델이 연속적으로 표현되는 것이 아닌 모든 학습 계층이 합동으로학습할 수 있게 하는 것
합동 특징 학습을 사용하면 모델이 내부 특징 중 하나를 조정할 때마다 자동으로 의존하는 다른 모든 특징이 사람의 개입 없이 자동으로 변경됨
=> 학습 과정 중에 데이터로부터 얼마나 딥러닝을 할 수 있는지와 관련된 두가지 필수 특성
1) 표현이 여러 계층을 거치는 동안에 점증적으로 더 복잡한 표현으로 바뀌게 된다는 특성
2) 그 중간 과정에서 나타나게 되는 여러 표현을 신경망의 중간에 자리 잡고 있는 여러 계층들이 서로 연결되어 합동으로 학습한다는 특성 한 가지가 이러한 필수 특성에 해당
캐글 : 그레이디언트 부스팅 머신 & 딥러닝이라는 두가지 접근 방식이 지배적
=> 그레이디언트는 아키텍처화된 데이터를 사용할 수 있는 문제에 사용되는 반면 딥러닝은 이미지 분류와 같은 인지 문제에 사용(주로 XG부스트 라이브러리 사용)
=> 딥러닝을 포함하는 대다수 캐글 참가자는 사용의 용이성과 유연성으로 인해 케라스라이브러리 이용
단순성(SIMPLICITY) :
딥러닝은 복잡하고 부서지기 쉬운 공학 수준 파이프라인을 5~6개의 서로 다른 텐서연산을 사용해 구축한 엔드 투 엔드 학습 모델로 대체해 특징공학을 불필요하게 만듦
확장성(SCALABILITY) :
딥러닝은 GPU, TPU의 병렬처리에 매우 적합, 또한 딥러닝 모델은 데이터 중에서 소규모 배치들을 대상으로 반복하는 식으로 훈련 -> 데이터셋의 크기가 얼마나 되든 상관 x
다기능성 및 재사용성(versability & reusability) :
딥러닝 모델은 이전의 多 머신러닝 기법과 달리 밑바닥부터 시작 x & 추가 데이터를 훈련 가능
(# 2 신경망의 수학적 빌딩 블록)