구분 | 상세 |
---|---|
분석 기법 | 기초 통계분석 ← DONE |
상관분석 ← DONE | |
회귀분석 ← DONE | |
분류분석 ← HERE! | |
군집분석 ← HERE! | |
RFM 분석 ← HERE! | |
분석 방법론 | A/B TEST ← DONE |
통계이론 | 기초통계이론(평균, 분산, 표준편차) ← DONE |
정규분포와 중심극한정리 ← DONE | |
신뢰구간과 유의수준 ← DONE | |
가설 설정 ← DONE | |
통계적 유의성 검정 ← DONE | |
통계적 가설 검정 ← DONE |
통계와 머신 러닝은 어떤 관계일까요?
특징 | 통계적 가설검정 | 머신러닝 |
---|---|---|
목적 | 가설 검증 및 데이터 통계적 특성 파악 | 예측 및 분류 모델 생성 |
데이터 요구 | 작은 데이터에서도 가능 | 대규모 데이터에서 성능이 향상 |
결과 해석 | p-value(통계적 유의성) 중심 | 모델의 정확도, 정밀도 등 평가 지표 활용 |
접근 방식 | 선형적이고 해석 가능한 결과 | 비선형적, 복잡한 패턴 학습 |
활용 영역 | 의학, 사회과학 등 가설 검증이 필요한 분야 | 산업 자동화, 추천 시스템 등 대규모 데이터 활용 분야 |
종류 | 평균 차이 검정(T-TEST/Z-TEST) | 지도학습 |
분산 차이 검정(F-TEST) | 비지도학습 | |
분포 검정(카이제곱검정) | 강화학습 | |
상관관계 검정(Pearson/Spearman/Cramér's V) | 딥러닝 |
두 가지 방법론 중 하나만 사용해야 하나요? No!
통계적 가설검정이 머신러닝을 보완하는 경우
머신러닝이 가설검정을 보완하는 경우
두 가지 방법론의 융합
(심화 프로젝트에서 해야 하는 부분)
→ 문제와 정답을 모두 알고있는 상태에서 시행
→ 정답을 알 수 없는 상태에서 시행
가장 큰 차이점: "Label"
구분 | 내용 |
---|---|
목표 | 지도 학습에서 목표는 새로운 데이터의 결과를 예측하는 것 |
비지도 학습 알고리즘의 목표는 많은 양의 새로운 데이터에 대한 통찰력을 얻는 것 | |
활용 | 지도 학습 모델은 감정 분석, 일기 예보 및 가격 예측에 이상적 |
비지도 학습은 이상 감지, 추천 엔진, 고객 페르소나 및 의료 영상에 매우 적합 | |
복잡성 | 지도 학습은 일반적으로 R 또는 Python과 같은 프로그램을 사용하여 계산되는 비교적 복잡성이 낮은 머신러닝 방법 |
비지도 학습에서는 대량의 분류되지 않은 데이터로 작업하기 위한 다양한 통계적 지식 및 관련 라이브러리가 필요 | |
비지도 학습 모델은 의도한 결과를 생성하기 위해 대규모 훈련 세트가 필요하기 때문에 계산적으로 복잡함 |
하지만, 실제 현업에서는 지도학습도 굉장히 복잡하게 진행합니다. 어렵게 하려면 얼마든지 어려워질 수 있습니다…
(현업 대화)
🙍♂️: 안녕하세요 소현님, 잘 지내시나요? 요새 어떤 일 하고 계세요?
👩🦰: 비지도 학습 하고 있습니다.
🙍♂️: ……………소현님 화이팅
다양한 특징 및 종류 살펴보기