upStageAI/패캠(기술통계)

TOLL TERRY·2023년 10월 17일
0

5일차 :: 통계와 머신러닝 23/10/17 upStageAI/패캠(기술통계)


안창배 강사님 시작

통계

  • 가정 검토에 엄격하며, 소량의 데이터를 데이터 분리하지 않음. 추론 성능에 강함.

머신러닝

  • 성능에 더 초점을 두며, 대량의 데이터를 split해서 사용하며 예측 성능이 강력하다.

AutoML

  • 문제를 해결하기 위해선, 회귀문제, 매출문제, 문제 정의가 필요하다.
    문제를 풀어주는 것이 AutoML(비싸고, 시간이 오래걸림, 있으면 편한 정도가 될 듯, 추천팀의 도입에서 ML를 모르면 AmazonPascal(알아서 데이터 추천해주는 플랫폼))

Data-centric AI

  • AI = Code(model or algorithm) + data(정형 데이터-엑셀 데이터, 반대는 음성 데이터)

피쳐-엔지니어링

  • raw data -> clean and transform -> 특징 -> 모델링 -> 인사이트
    원핫, 특징해싱, log-transform

데이터 플라이휠

  • 데이터웨어하우스 (학습)-> 모델(결정) -> 생산(수집) -> 관측자(organize) -> 데이터웨어하우스

Multivariate 분포

  • 동전 1개만 던졌을 때, 앞면이 몇개 나오는 지, 동전 앞과 뒤의 순서에 따른 분포를 nomal(가우시안)을 통해서 x1이 커지면 x2가 작아지는 것이 네거티브 관계가 된다.

k-fold cross validation

  • 데이터를 쪼개서 train, test 할때 교차해서 다 사용한다.

2. GLM (일반 선형 모델)

  • x값에 따라 y의 분포(정규분포 가정하는 것이 선형모델, GLM은 정규분포가 아닌 다른 분포일 때 의미함.)

< 로지스틱 회귀의 가정 >


3. k-means (클러스터링)

비지도학습

  • 정규분포를 따른다는 특정한 가정
  • EM-클러스터링(GLM으로 대체가능)
  • 군집수 k, means는 평균을 이용함(가우시안을 활용), medoids(중간값 활용)

<학습방법>

    1. k개의 초기 포인트(초기 포인트에 영향받음)를 랜덤하게 지정 -> k개의 군집 생성
    1. 각 관측치에 대해, 가장 가까운 초기 포인트의 군집에 할당함
    1. 각 근집의 평균값 재연산
    1. 2~3을 수렴할때까지 반복함.

< local vs global > 극소값

  • local : 절벽 아래로 떨어져 있는 상황
  • global : 모든 절벽 아래로 떨어져 있는 가장 최고의 상황

k-means는 값 수렴이 local로 될 수 있다는 문제가 생김

< 단위의 통합을 이루는 거리 >

  • 일반적으로 유클리드 거리를 사용함. (단위의 통일이 중요함)
  • 범주형 자료는 0,1로 인코딩하여 -> 고어 유사도
  • 평가는 실루엣 스코어를 많이 사용함. (적절한 k의 값을 찾기 위해)

< 한계 >

  • 원형이 아닌 형태는 잡지 못함.
  • 각 클러스터는 비슷한 크기(분산)이어야 함.

< 해결하기 위한 GMM과 LMM >

  • 구형
  • 공분산이 없는 타원
  • 공부산이 있는 타원
  • 겹쳐있는 타원 (클러스터링으로 풀기 어려움)

< GMM > - 가우시안 혼합 모형

  • 평균에 가장 가까운 것을 제곱하여, 가장 가까운 거리(argmin)를 클러스터링으로 한다.

  • 클러스터 별로 다른 분산 하용한다. 분산의 행렬에 sigma에 대한 학습.

  • 공분산 행렬을 학습( 두 확률 변수가 어떻게 같이 움직이는 지를 수치로 나타냄 ) -> 다양한 형태의 군집 학습이 가능하다. (더 많은 모수를 학습하므로 더 많은 데이터가 필요함)
    0(diag)은 x와 y에 공분산이 없다. -(shperical)는 x와 y는 반대로 움직인다. +(full)는 x와 y가 같이 움직인다.

  • 학습( 초기 군집 3개를 찾고, 평균을 이동하면서, 점차 안정화 되는 step으로 크게 변화지 않을 때, 수렴한다.) 여전히 이상치에 민감함(그래서 나온게 LMM). 원형이 아닌 구불구불한 모형에서 식별이 불가능하다.


< LMM > -

profile
행복을 찾아서(크리스 가드너)

0개의 댓글