24일차 강의 : 통계기반 데이터 활용 (회귀)

Luis_J·2024년 10월 14일
0

MS_AI_School 5기

목록 보기
24/48
post-thumbnail
post-custom-banner

Summary

파이썬을 통해 쉽고 재미있게 통계 기반 분석을 할 수 있습니다.

Introduction

김자영 강사님
통계 기반 파이썬에서 머신러닝 관련 이론과 활용법을 배웁니다.

데이터 분석이 사실 난이도가 훨씬 높습니다.
데이터 전처리가 80%입니다.
머신러닝은 암기의 영역입니다.. 손이 기억할 정도로 반복해야 합니다.

Code, Conept & Explanation

머신러닝

인공지능 ⊃ 머신러닝 ⊃ 딥러닝
머신러닝 : 데이터 학습, 규칙 도출
딥러닝 : 인공신경망

데이터 마이닝 ⊃ 머신 러닝

데이터 마이닝 : 통찰력
데이터 마이닝 유용한 정보 패턴
데이터베이스, 통계, 데이터시각화, 머신러닝 기술 등을 사용

머신러닝 : 예측

데이터 분석 방법론

CRISP-DM
CRoss Industry Standard Process for Data Mining

모델링 : 수학적 모델을 구축하는 과정
EDA : 데이터에 대한 이해

Data Understanding → Data Preparation → Modeling

머신러닝 유형

  1. 지도학습 : 레이블 O
    1) 회귀
    2) 분류

  2. 비지도학습 : 레이블 X
    1) 군집화
    2) 차원축소

    3) 연관규칙

강화학습 : 보상
준지도학습 : 레이블이 있는 데이터와 없는 데이터를 함께 사용

  1. 지도학습 : 예측
    1) 회귀 : 연속적인 값 예측
    2) 분류 : 분류 예측

  2. 비지도학습 : 레이블이 없는 데이터에서 숨겨진 구조를 찾아내는 방법
    1) 군집화
    2) 차원축소
    3) 연관규칙 : 장바구니 분석, 웹 로그 분석

대표적인 회귀 알고리즘 : Linear Regression 선형 회귀

  • Ridge, Lasso
  • Decision Trees
  • Support Vector
  • ...

Linear Regression 기반 Logistic Regression은 분류 모델

통계기반 머신러닝을 위한 파이선 라이브러리

scikit Learn 전통적인 머신러닝
statsmodels
Numpy 배열 처리 및 수치연산
pandas 데이터 전처리/분석
matplotblog 데이터 시각화
seaborn 데이터 시각화

빅데이터분석기사

1과목 : 전처리 pandas
2과목 : scikitlearn
3과목 : statsmodels 통계, 회귀

머신러닝 프로세스

EDA → 문제정의 → 데이터준비 → 데이터 전처리 → 모델학습 → 모델 평가

데이터 준비 : 훈련에 사용할 후보 변수 선택
파생변수 생성, 데이터 보강

데이터 전처리 : 데이터 정체 (이상치/결측치 처리)
데이터 변환 (스케일링 / 인코딩)
훈련/검증/테스트용으로 데이터 분할

모델학습 : 성능이 좋은 모델이 보통 정해져 있습니다
random forest, boosted 모델

모델 평가 : 모델 유형에 따른 다양한 평가지표

분석모형 선정

상관계수 기반 선택: 상관관계를 측정하여 선정
가장 쉽고 간단하게 사용 가능

  1. 래퍼 방법(Wrapper Method) : 전진석택법, 후진제거법, 단계적 선택법
    1) 전진선택법 Forward Selection : 가장 중요한 특성부터 하나씩 추가
    2) 후진제거법 Backward Elimination : 가장 덜 중요한 특성부터 하나식 제거
    3) 단계적 선택법 Stepwise Selection : 전진 선택법과 후진제거법을 번갈아 수행

  2. 임베디드 방법 (Embedded Method)
    1) L1 정규화 Lasso : 일부의 계수를 0으로 만들어 선택
    2) L2 정규화 Ridge : 덜 중요한 특성의 영향력 감소
    3) 엘라스틱넷 : Lasso 와 Ridge의 조합
    4) 트리 기반 방법 : 특성 중요도 계산 가능 (중요하지 않은 특성 제거)

R스퀘어드는 1에 가까울수록 높은 성능 모델
0에 가까울수록 안 좋은 모델

  1. 차원 축소 방법 (Dimensionality Reduction)
    1) 주성분 분석 PCA : 데이터 분산 최대화하는 새로운 축을 찾아 차원을 축소
    2) 선형 판별 분석 LDA : 클래스 구분을 최대화하는 축을 찾는 방법. 분류 문제 유용

데이터 탐색 및 전처리

결측치 제거
결측치 대체

Challenges & Solutions

Results

What I Learned & Insights

라이브러리를 활용함으로 파이썬의 심플함이 극대화 될 수 있습니다.
간단한 코딩만으로도 다양한 표현이 가능합니다.

누가 가르치느냐에 따라서 학업 성취도가 크게 달라질 수 있습니다.

Conclusion

파이썬은 사실 쉽고 재미있습니다.

profile
New life & History
post-custom-banner

0개의 댓글