'단단한 머신러닝' 책과 스터디 내용을 기반으로 작성하였습니다.
1.1 머신러닝이란
1.2 머신러닝의 기본 용어(책에 사용되는 용어)
-
데이터 세트: 데이터(기록)들의 집합
-
샘플 or 사례: 개별적인 기록은 사물 or 대상에 대한 묘사
-
속성 or 특성: 사물 or 대상의 특정 부분 or 성질을 반영
-
특성값: 속성 or 특성이 취할 수 있는 값
-
샘플 공간: 속성을 속성 공간으로 확장한 공간
-
특성 벡터: 공간의 각 점은 하나의 좌표 벡터에 상응
-
차원수
- m개의 샘플들 중 각 샘플이 가지는 d개의 속성이 있다고 가정, 이 때의 d
ex) D={x1,x2,...,xm}, xi=(xi1;xi2;...;xid)
-
학습 or 훈련: 데이터를 통해 모델을 만들어가는 과정
-
훈련 데이터: 훈련 과정에서 사용되는 데이터
-
훈련 샘플: 훈련 데이터의 각 샘플
-
훈련 세트: 훈련 샘플의 집합
-
가설
- 어떠한 사실을 설명하거나 증명하기 위한 가정
- 크게 연구 가설(대립 가설), 귀무 가설로 나뉩니다.
- 연구 가설은 연구자가 검증하려는 가설로 귀무 가설을 부정함으로 가설을 증명하려는 가설입니다.
- 귀무 가설은 처음부터 버릴 것을 예상하는 가설로 변수 간의 차이나 관계가 없음을 통계학적 증거를 통해 증명하려는 가설입니다.
- 기계 학습에서의 가설은 데이터 속의 잠재된 규칙에 학습 모델이 대응하는 것입니다.
- 즉, 데이터 안의 변수 간의 관계 여부를 확률적으로 설명하는데 사용됩니다.
- 학습의 목표는 데이터를 통해 가설을 세우고 잠재되어 있는 규칙을 찾아내기 위함입니다.
-
진실: 잠재적인 규칙 – 인스턴스, 애트리뷰트
- 학습 알고리즘은 일반적으로 파라미터 설정이 필요한데, 서로 다른 파라미터값과 훈련 데이터를 사용함에 따라 다른 결과를 생성합니다.
(파라미터는 모델 내부에서 확인이 가능한 변수)
- 데이터를 통해 확인이 가능하며, 모델 외적으로 존재하는 하이퍼파리미터와는 별개의 개념입니다.
-
레이블(label)
- 결과를 나타내는 정보, 일반적으로 (xi,yi)와 같은 형식으로 i번째 샘플을 표현
- Y: 레이블 공간, 출력 공간
-
분류와 회귀
- 분류: 예측하려는 값이 이산값(명확한 구분이 가능한 값 ex) 물건의 갯수 등) – 이진 분류, 다항 분류
- 회귀: 예측하려는 값이 연속값(연속된 값, 명확한 구분이 불가능한 값 ex) 키, 온도, 몸무게 등)
- 분류도 회귀입니다. 연속된 값을 기반으로 sigmoid를 취해 특정 값에 가깝게 분포되는 값들을 임계값을 기준으로 이산형으로 만들어낸 것이기 때문입니다.
-
예측
- 훈련 세트에 대해 학습하여 입력 공간 X에서 출력 공간 Y를 투영하는 식을 찾는 과정
-
검증
- 학습을 통해 모델을 만들고 해당 모델을 활용하여 예측하는 과정
- 테스트 샘플: 검증 과정에 사용되는 샘플
- 학습 후 모델을 f, 샘플을 x라고 할 때 y=f(x)으로 표현 가능
- 클러스터링
- 훈련 세트를 몇 가지 집단으로 분할, 각 집단이 하나의 클러스터입니다.
자동으로 형성된 클러스터링은 데이터 내에 잠재되어 있는 어떠한 패턴에 대응하여 형성됩니다.
- 데이터에 잠재된 규칙을 발견할 수 있도록 도와주며 더 깊이 분석할 수 있는 기초를 제공해 줍니다.
cf) 우리가 사전에 알지 못했던 것들, 즉 사전에 레이블이 존재하지 않습니다.
- 지도학습 vs 비지도 학습
- 지도학습: 회귀, 분류 – 훈련 데이터가 레이블을 보유
- 비지도학습: 클러스터링 – 훈련 데이터가 레이블을 미보유
- 기계학습의 목표는 학습된 모델이 새로운 샘플에 대해 좋은 성능을 내보이는 것입니다.
- 일반화
- 학습된 모델이 새로운 데이터에 적용되고 좋은 퍼포먼스를 내는 것
- 범용성을 갖추었으며 무한한 샘플 중 일부를 사용하였더라도 전체적인 샘플 공간의 특성을 잘 반영하였다고 기대합니다.
- 반대(일반화 능력 X): 새로운 샘플에 적용하기 힘듭니다.
- 독립항등분포(i.i.d)
- 샘플 공간의 모든 샘플들이 미지의 분포를 보인다고 가정, 독립적으로 각 분포에서 채집됩니다.
- 전제되지 않는다면 통계적 이론들이 성립되지 않습니다.
1.3 가설공간
- 귀납
- 특수에서 일반으로 일반화하는 과정(inductive)
- 구체적인 사실에서 일반성을 가지는 규칙을 찾는 것
- 연역
- 일반에서 특수로 특화하는 과정(deductive)
- 기초 원리로부터 구체적인 정황을 추론
- 수학적 공리, 추론 규칙에 기반을 두고 수학적 정리를 유도
(*수학적 공리: 명백한 진실)
샘플을 통해 학습하는 것은 명백한 귀납 과정
- 귀납 학습
좁은 의미: 훈련 데이터에서 개념을 배울 것
넓은 의미: 샘플을 통해 배우는 것
cf) 개념학습기술은 현재 연구되거나 응용되는 것이 비교적 많지 않습니다. 일반화 성능이 좋으면서 의미가 명확한 개념의 습득이 쉽지 않기 때문입니다. 따라서 현실에 자주 사용되는 모델은 대부분 블랙박스 기술입니다.
- 가설공간
- 고려가능한 속성의 갯수에 의해 가능한 샘플의 갯수
- 따라서 속성1속성값의수+1∗속성2속성값의수+1∗...+1가 고려 가능한 가설공간이 됩니다.
- 학습 과정은 한정적인 훈련 데이터만으로 진행되므로 이 중 일부만 이용합니다.
- 버전 공간
- 훈련 데이터 세트와 가설들이 일치하는 가설들의 집합
1.4 귀납적 편향
- 학습을 통해 얻은 모델은 가설 공간 중 하나의 가설에 대응
- 버전 공간의 문제
- 훈련 데이터 세트와 일치하는 가설들이 대응하는 모델이 새로운 샘플을 만났을 때 서로 다른 출력을 생산한다는 것
- 구체적인 학습 알고리즘은 반드시 하나의 모델을 생성해 내야 합니다.
어떤 것이 더 좋은 가설인지 모르는 경우 학습 알고리즘 본연의 '편향'이 중요하게 작용합니다.
- 귀납적 편향
- 머신러닝 알고리즘의 학습과정에서 특정한 가설에 대한 편향
- 모든 유효한 알고리즘이 귀납적 편향을 보유
- 귀납적 편향은 기본적인 가정을 가지고 있다.
- CNN은 기본적으로 Sparse한 데이터가 존재할 것
- RNN은 시퀀스 데이터가 있을 것
- Transformer: 모든 층이 Feed Forward 식으로 구성
- 단순한 완전 연결층으로만 구성
- 따라서 inductive bias에 약합니다.
- inductive bias가 약하면 많은 데이터가 학습에 필요합니다.
- Bias/Variance trade off
- 샘플링 과정 크기 – Bias가 높으면 적은 샘플로도 충분한 학습이 가능합니다.
- 오컴의 면도날
- 다수의 가설이 관측된 것과 일치하다면 가장 간단한 것을 선택해야 한다는 자연과학 연구에서 가장 기본이 되는 원칙입니다.
- 유일한 원칙은 아니며 어떤 모델이 간단한지 판별이 어렵다는 문제도 있습니다.
- NFL(공짜 점심은 없다.)
- 학습 알고리즘들이 얼만큼 똑똑한지에 관계없이 기대 성능은 동일하다는 말입니다.
- 전제 조건은 '문제'가 출현하는 기회가 같거나. 모든 문제가 똑같이 중요하다는 것입니다.