[통계학] 통계야 놀자 06

Data_Student·2024년 11월 21일
0

통계학 기초

목록 보기
10/10

통계야 놀자 6회차 복습 및 내용 정리

1. 통계와 머신러닝
2. 지도학습 살펴보기
3. 비지도학습 살펴보기


01. 통계와 머신러닝

  • 통계와 머신러닝의 관계성

    • 데이터 분석이라는 분야에서 대표적으로 통계적 가설검정과 머신러닝이 존재, 두 방법론은 긴밀하게 연관

    • 머신러닝 : 데이터를 기반으로 예측 모델을 학습시키는 알고리즘 기반의 접근법

      • 목적 : 주어진 데이터를 통해 패턴을 학습하여 미래 데이터를 예측하거나 분류
      • 종류 : 지도학습(분류, 회귀), 비지도학습(군집, 차원축소), 강화학습

두 방법론 중에서 하나만 사용할 필요는 없다.

  • 두 가지 방법은 상호보완적

  • 통계적 가설검정이 머신러닝을 보완하는 경우

    • 머신러닝 모델의 피처 선택(초기 컬럼 선택)에서 유의미한 변수를 찾기 위해 통계적 가설검정 사용
    • 데이터 분포, 이상치 처리 등 데이터 전처리에 유용한 통계적 기법을 제공
  • 머신러닝이 가설검정을 보완하는 경우

    • 비선형 데이터를 관계를 처리하거나 대규모 데이터에서 가설 검정의 한계를 보완
  • 머신러닝의 종류

    • 지도 학습 : 정답이 있는 데이터를 통해 훈련하여 결과에 대한 예측
    • 비지도학습 : 정답이 없는 데이터를 통해 훈련하여 데이터 속의 패턴을 찾아 분류
  • 지도학습과 비지도학습의 차이점

    • 두 접근 방식의 주요 차이점은 훈련 데이터에 Label(정답)이 지정되어 있는지 유무

02. 지도학습 살펴보기

  • 지도학습 : 분류 vs 회귀

    • 연속적인 값을 출력 : 회귀
    • 이산적인 값을 출력 : 분류
  • 지도학습에 사용되는 기법

    • 선형회귀(Linear Regreesion)
    • 로지스틱 회귀(Logistic Regression)
    • K-최근접 이웃(k-Nearest Neighbors)
    • 랜덤 포레스트(Random Forest)
    • 나이브 베이즈(Navie Bayes)
    • 서포터 벡터 머신(SVM)
    • 의사결정 트리(Decision Tree)
    • 인공신경망(Neural Network)
  • 재미있는 RFM(분류) 분석

    • RFM( Recency(최근성), Frequency(빈도), Monetary(구매금액) )
      • Recency : 최근에 구매한 고객일수록 더 가치있는 고객으로 점수 부여
      • Frequency : 자주 구매하는 고객일수록 더 가치있는 고객으로 점수 부여
      • Monetary : 구매금액이 높을수록 가치있는 고객으로 점수 부여

03. 비지도학습 살펴보기

  • 비슷한 특성끼리 묶는 군집화를 실시

    • 기간 선정
    • K값(군집갯수), 초기 컬럼(피쳐) 선정
    • 이상치 기준선정 및 제외
    • 표준화
    • 차원 축소
    • PCA Plot으로 군집 밀도 확인
    • 위 과정을 반복하여 최적의 결과 도출
    • 모델링(Random Forest)
    • 데이터 적재 및 자동화 설정
  • 비지도학습에 사용되는 기법

    • 군집(Clustering)
    • K-means 클러스터링
    • 주성분 분석(PCA) 등

0개의 댓글