upStageAI/패캠(기술통계)

TOLL TERRY·2023년 10월 17일

업스테이지AI_패스트캠퍼스

upstageAI_패스트캠퍼스

목록 보기

5/20

5일차 :: 통계와 머신러닝 23/10/17 upStageAI/패캠(기술통계)

안창배 강사님 시작

통계

가정 검토에 엄격하며, 소량의 데이터를 데이터 분리하지 않음. 추론 성능에 강함.

머신러닝

성능에 더 초점을 두며, 대량의 데이터를 split해서 사용하며 예측 성능이 강력하다.

AutoML

문제를 해결하기 위해선, 회귀문제, 매출문제, 문제 정의가 필요하다.
문제를 풀어주는 것이 AutoML(비싸고, 시간이 오래걸림, 있으면 편한 정도가 될 듯, 추천팀의 도입에서 ML를 모르면 AmazonPascal(알아서 데이터 추천해주는 플랫폼))

Data-centric AI

AI = Code(model or algorithm) + data(정형 데이터-엑셀 데이터, 반대는 음성 데이터)

피쳐-엔지니어링

raw data -> clean and transform -> 특징 -> 모델링 -> 인사이트
원핫, 특징해싱, log-transform

데이터 플라이휠

데이터웨어하우스 (학습)-> 모델(결정) -> 생산(수집) -> 관측자(organize) -> 데이터웨어하우스

Multivariate 분포

동전 1개만 던졌을 때, 앞면이 몇개 나오는 지, 동전 앞과 뒤의 순서에 따른 분포를 nomal(가우시안)을 통해서 x1이 커지면 x2가 작아지는 것이 네거티브 관계가 된다.

k-fold cross validation

데이터를 쪼개서 train, test 할때 교차해서 다 사용한다.

2. GLM (일반 선형 모델)

x값에 따라 y의 분포(정규분포 가정하는 것이 선형모델, GLM은 정규분포가 아닌 다른 분포일 때 의미함.)

< 로지스틱 회귀의 가정 >

3. k-means (클러스터링)

비지도학습

정규분포를 따른다는 특정한 가정
EM-클러스터링(GLM으로 대체가능)
군집수 k, means는 평균을 이용함(가우시안을 활용), medoids(중간값 활용)

<학습방법>

1. k개의 초기 포인트(초기 포인트에 영향받음)를 랜덤하게 지정 -> k개의 군집 생성
1. 각 관측치에 대해, 가장 가까운 초기 포인트의 군집에 할당함
1. 각 근집의 평균값 재연산
1. 2~3을 수렴할때까지 반복함.

< local vs global > 극소값

local : 절벽 아래로 떨어져 있는 상황
global : 모든 절벽 아래로 떨어져 있는 가장 최고의 상황

k-means는 값 수렴이 local로 될 수 있다는 문제가 생김

< 단위의 통합을 이루는 거리 >

일반적으로 유클리드 거리를 사용함. (단위의 통일이 중요함)
범주형 자료는 0,1로 인코딩하여 -> 고어 유사도
평가는 실루엣 스코어를 많이 사용함. (적절한 k의 값을 찾기 위해)

< 한계 >

원형이 아닌 형태는 잡지 못함.
각 클러스터는 비슷한 크기(분산)이어야 함.

< 해결하기 위한 GMM과 LMM >

구형
공분산이 없는 타원
공부산이 있는 타원
겹쳐있는 타원 (클러스터링으로 풀기 어려움)

< GMM > - 가우시안 혼합 모형

평균에 가장 가까운 것을 제곱하여, 가장 가까운 거리(argmin)를 클러스터링으로 한다.
클러스터 별로 다른 분산 하용한다. 분산의 행렬에 sigma에 대한 학습.
공분산 행렬을 학습( 두 확률 변수가 어떻게 같이 움직이는 지를 수치로 나타냄 ) -> 다양한 형태의 군집 학습이 가능하다. (더 많은 모수를 학습하므로 더 많은 데이터가 필요함)
0(diag)은 x와 y에 공분산이 없다. -(shperical)는 x와 y는 반대로 움직인다. +(full)는 x와 y가 같이 움직인다.
학습( 초기 군집 3개를 찾고, 평균을 이동하면서, 점차 안정화 되는 step으로 크게 변화지 않을 때, 수렴한다.) 여전히 이상치에 민감함(그래서 나온게 LMM). 원형이 아닌 구불구불한 모형에서 식별이 불가능하다.

< LMM > -

TOLL TERRY

행복을 찾아서(크리스 가드너)

이전 포스트

upStageAI/패캠(기술통계)

다음 포스트

upStageAI/패캠(기술통계)

upstageAI_패스트캠퍼스

안창배 강사님 시작

2. GLM (일반 선형 모델)

3. k-means (클러스터링)

< 해결하기 위한 GMM과 LMM >

upStageAI/패캠(기술통계)

2022년 매출 데이터 분석 : EDA 프로젝트 회고

0개의 댓글

관련 채용 정보