5일차 :: 통계와 머신러닝 23/10/17 upStageAI/패캠(기술통계)
안창배 강사님 시작
통계
- 가정 검토에 엄격하며, 소량의 데이터를 데이터 분리하지 않음. 추론 성능에 강함.
머신러닝
- 성능에 더 초점을 두며, 대량의 데이터를 split해서 사용하며 예측 성능이 강력하다.
AutoML
- 문제를 해결하기 위해선, 회귀문제, 매출문제, 문제 정의가 필요하다.
문제를 풀어주는 것이 AutoML(비싸고, 시간이 오래걸림, 있으면 편한 정도가 될 듯, 추천팀의 도입에서 ML를 모르면 AmazonPascal(알아서 데이터 추천해주는 플랫폼))
Data-centric AI
- AI = Code(model or algorithm) + data(정형 데이터-엑셀 데이터, 반대는 음성 데이터)
피쳐-엔지니어링
- raw data -> clean and transform -> 특징 -> 모델링 -> 인사이트
원핫, 특징해싱, log-transform
데이터 플라이휠
- 데이터웨어하우스 (학습)-> 모델(결정) -> 생산(수집) -> 관측자(organize) -> 데이터웨어하우스
Multivariate 분포
- 동전 1개만 던졌을 때, 앞면이 몇개 나오는 지, 동전 앞과 뒤의 순서에 따른 분포를 nomal(가우시안)을 통해서 x1이 커지면 x2가 작아지는 것이 네거티브 관계가 된다.
k-fold cross validation
- 데이터를 쪼개서 train, test 할때 교차해서 다 사용한다.
2. GLM (일반 선형 모델)
- x값에 따라 y의 분포(정규분포 가정하는 것이 선형모델, GLM은 정규분포가 아닌 다른 분포일 때 의미함.)
< 로지스틱 회귀의 가정 >
3. k-means (클러스터링)
비지도학습
- 정규분포를 따른다는 특정한 가정
- EM-클러스터링(GLM으로 대체가능)
- 군집수 k, means는 평균을 이용함(가우시안을 활용), medoids(중간값 활용)
<학습방법>
- k개의 초기 포인트(초기 포인트에 영향받음)를 랜덤하게 지정 -> k개의 군집 생성
- 각 관측치에 대해, 가장 가까운 초기 포인트의 군집에 할당함
- 각 근집의 평균값 재연산
- 2~3을 수렴할때까지 반복함.
< local vs global > 극소값
- local : 절벽 아래로 떨어져 있는 상황
- global : 모든 절벽 아래로 떨어져 있는 가장 최고의 상황
k-means는 값 수렴이 local로 될 수 있다는 문제가 생김
< 단위의 통합을 이루는 거리 >
- 일반적으로 유클리드 거리를 사용함. (단위의 통일이 중요함)
- 범주형 자료는 0,1로 인코딩하여 -> 고어 유사도
- 평가는 실루엣 스코어를 많이 사용함. (적절한 k의 값을 찾기 위해)
< 한계 >
- 원형이 아닌 형태는 잡지 못함.
- 각 클러스터는 비슷한 크기(분산)이어야 함.
< 해결하기 위한 GMM과 LMM >
- 구형
- 공분산이 없는 타원
- 공부산이 있는 타원
- 겹쳐있는 타원 (클러스터링으로 풀기 어려움)
< GMM > - 가우시안 혼합 모형
-
평균에 가장 가까운 것을 제곱하여, 가장 가까운 거리(argmin)를 클러스터링으로 한다.
-
클러스터 별로 다른 분산 하용한다. 분산의 행렬에 sigma에 대한 학습.
-
공분산 행렬을 학습( 두 확률 변수가 어떻게 같이 움직이는 지를 수치로 나타냄 ) -> 다양한 형태의 군집 학습이 가능하다. (더 많은 모수를 학습하므로 더 많은 데이터가 필요함)
0(diag)은 x와 y에 공분산이 없다. -(shperical)는 x와 y는 반대로 움직인다. +(full)는 x와 y가 같이 움직인다.
-
학습( 초기 군집 3개를 찾고, 평균을 이동하면서, 점차 안정화 되는 step으로 크게 변화지 않을 때, 수렴한다.) 여전히 이상치에 민감함(그래서 나온게 LMM). 원형이 아닌 구불구불한 모형에서 식별이 불가능하다.
< LMM > -