파이썬을 통해 쉽고 재미있게 통계 기반 분석을 할 수 있습니다.
김자영 강사님
통계 기반 파이썬에서 머신러닝 관련 이론과 활용법을 배웁니다.
데이터 분석이 사실 난이도가 훨씬 높습니다.
데이터 전처리가 80%입니다.
머신러닝은 암기의 영역입니다.. 손이 기억할 정도로 반복해야 합니다.
인공지능 ⊃ 머신러닝 ⊃ 딥러닝
머신러닝 : 데이터 학습, 규칙 도출
딥러닝 : 인공신경망
데이터 마이닝 ⊃ 머신 러닝
데이터 마이닝 : 통찰력
데이터 마이닝 유용한 정보 패턴
데이터베이스, 통계, 데이터시각화, 머신러닝 기술 등을 사용
머신러닝 : 예측
CRISP-DM
CRoss Industry Standard Process for Data Mining
모델링 : 수학적 모델을 구축하는 과정
EDA : 데이터에 대한 이해
Data Understanding → Data Preparation → Modeling
지도학습 : 레이블 O
1) 회귀
2) 분류
비지도학습 : 레이블 X
1) 군집화
2) 차원축소
3) 연관규칙
강화학습 : 보상
준지도학습 : 레이블이 있는 데이터와 없는 데이터를 함께 사용
지도학습 : 예측
1) 회귀 : 연속적인 값 예측
2) 분류 : 분류 예측
비지도학습 : 레이블이 없는 데이터에서 숨겨진 구조를 찾아내는 방법
1) 군집화
2) 차원축소
3) 연관규칙 : 장바구니 분석, 웹 로그 분석
대표적인 회귀 알고리즘 : Linear Regression 선형 회귀
Linear Regression 기반 Logistic Regression은 분류 모델
scikit Learn 전통적인 머신러닝
statsmodels
Numpy 배열 처리 및 수치연산
pandas 데이터 전처리/분석
matplotblog 데이터 시각화
seaborn 데이터 시각화
1과목 : 전처리 pandas
2과목 : scikitlearn
3과목 : statsmodels 통계, 회귀
EDA → 문제정의 → 데이터준비 → 데이터 전처리 → 모델학습 → 모델 평가
데이터 준비 : 훈련에 사용할 후보 변수 선택
파생변수 생성, 데이터 보강
데이터 전처리 : 데이터 정체 (이상치/결측치 처리)
데이터 변환 (스케일링 / 인코딩)
훈련/검증/테스트용으로 데이터 분할
모델학습 : 성능이 좋은 모델이 보통 정해져 있습니다
random forest, boosted 모델
모델 평가 : 모델 유형에 따른 다양한 평가지표
상관계수 기반 선택: 상관관계를 측정하여 선정
가장 쉽고 간단하게 사용 가능
래퍼 방법(Wrapper Method) : 전진석택법, 후진제거법, 단계적 선택법
1) 전진선택법 Forward Selection : 가장 중요한 특성부터 하나씩 추가
2) 후진제거법 Backward Elimination : 가장 덜 중요한 특성부터 하나식 제거
3) 단계적 선택법 Stepwise Selection : 전진 선택법과 후진제거법을 번갈아 수행
임베디드 방법 (Embedded Method)
1) L1 정규화 Lasso : 일부의 계수를 0으로 만들어 선택
2) L2 정규화 Ridge : 덜 중요한 특성의 영향력 감소
3) 엘라스틱넷 : Lasso 와 Ridge의 조합
4) 트리 기반 방법 : 특성 중요도 계산 가능 (중요하지 않은 특성 제거)
R스퀘어드는 1에 가까울수록 높은 성능 모델
0에 가까울수록 안 좋은 모델
결측치 제거
결측치 대체
라이브러리를 활용함으로 파이썬의 심플함이 극대화 될 수 있습니다.
간단한 코딩만으로도 다양한 표현이 가능합니다.
누가 가르치느냐에 따라서 학업 성취도가 크게 달라질 수 있습니다.
파이썬은 사실 쉽고 재미있습니다.