통계야 놀자 - 6회차

Suhyeon Lee·2024년 11월 21일
0

라이브 세션

목록 보기
19/37

목표

  • 통계와 머신러닝의 관계 이해
  • 머신러닝의 종류 이해
    • 지도 학습
    • 비지도 학습
  • 지도 학습의 특징과 종류 살펴보기
  • 비지도 학습의 특징과 종류 살펴보기
구분상세
분석 기법기초 통계분석 ← DONE
상관분석 ← DONE
회귀분석 ← DONE
분류분석 ← HERE!
군집분석 ← HERE!
RFM 분석 ← HERE!
분석 방법론A/B TEST ← DONE
통계이론기초통계이론(평균, 분산, 표준편차) ← DONE
정규분포와 중심극한정리 ← DONE
신뢰구간과 유의수준 ← DONE
가설 설정 ← DONE
통계적 유의성 검정 ← DONE
통계적 가설 검정 ← DONE


통계와 머신 러닝

통계와 머신 러닝은 어떤 관계일까요?

통계와 머신 러닝의 관계성

  • '데이터 분석'이라는 분야의 두 가지 방법론 → 긴밀하게 연관되어 있음
    • 통계적 가설 검정
      • '데이터 분석가가 사용하는 통계'를 중점적으로 학습
      • 데이터 타입에 따른 다양한 통계 가설 검정을 진행
    • 머신 러닝(기계 학습)
      • 정의: 데이터를 기반으로 예측 모델을 학습시키는 알고리즘 기반의 접근법
      • 목적: 주어진 데이터를 통해 패턴을 학습하여 미래 데이터를 예측하거나 분류하는 것
      • 종류: 지도학습(분류, 회귀), 비지도학습(클러스터링, 차원 축소), 강화학습

핵심 요약

특징통계적 가설검정머신러닝
목적가설 검증 및 데이터 통계적 특성 파악예측 및 분류 모델 생성
데이터 요구작은 데이터에서도 가능대규모 데이터에서 성능이 향상
결과 해석p-value(통계적 유의성) 중심모델의 정확도, 정밀도 등 평가 지표 활용
접근 방식선형적이고 해석 가능한 결과비선형적, 복잡한 패턴 학습
활용 영역의학, 사회과학 등 가설 검증이 필요한 분야산업 자동화, 추천 시스템 등 대규모 데이터 활용 분야
종류평균 차이 검정(T-TEST/Z-TEST)지도학습
분산 차이 검정(F-TEST)비지도학습
분포 검정(카이제곱검정)강화학습
상관관계 검정(Pearson/Spearman/Cramér's V)딥러닝
  • 두 가지 방법론 중 하나만 사용해야 하나요? No!

    • 통계적 가설검정이 머신러닝에 그 힘을 실어줄 수도 있고, 반대의 경우도 있음
    • 즉, 두 가지의 방법론은 상호보완적
  • 통계적 가설검정이 머신러닝을 보완하는 경우

    • 머신러닝 모델의 피처 선택(컬럼 선택)에서 유의미한 변수를 찾기 위해 통계적 가설검정 사용
    • 데이터 분포, 이상치 처리 등 데이터 전처리에 유용한 통계적 기법을 제공
  • 머신러닝이 가설검정을 보완하는 경우

    • 비선형 데이터의 관계를 처리하거나 대규모 데이터에서 가설 검정의 한계를 보완
    • 예시
      • 통계적 가설검정은 변수 간 독립성을 가정하고 진행되지만, 머신러닝은 이러한 제약 없이 상관 및 연관성을 탐지함
  • 두 가지 방법론의 융합
    (심화 프로젝트에서 해야 하는 부분)

    • 통계적 가설검정을 사용해 데이터 탐색 및 초기 분석을 수행한 후, 머신러닝을 통해 예측 성능을 극대화

머신 러닝의 종류

  • 지도 학습
    • 정답이 있는 데이터(labelled data)를 활용해 훈련 데이터로부터 프로그램 등을 학습시켜서 결과에 대한 예측을 만들어내는 기계 학습(Machine Learning)의 한 방법
    • 훈련 데이터와 정답을 주고서 프로그램을 학습시키며, 학습 후 검증 데이터를 통해 적절하게 학습되었는지 모델을 검증하는 과정을 거침
      • 사람으로 비유하자면 학생이 학교에서 수업을 듣고(훈련 데이터로부터의 학습), 시험을 통해 평가(모델 검증)받는 것

→ 문제와 정답을 모두 알고있는 상태에서 시행

  • 비지도 학습
    • 정답이 없는 데이터(Unlabelled data)를 분석함으로써 그 안에 숨어있는 패턴을 찾아내거나 데이터를 그룹화시키는 알고리즘
    • 데이터 간의 유사성이나 차이점을 분석해서 적절한 해결책을 만들어내는 것이 목표
    • 오직 입력되는 데이터만을 이용해 컴퓨터를 학습시키는 방법

→ 정답을 알 수 없는 상태에서 시행

  • 머신 러닝은 크게 지도 학습, 비지도 학습, 강화 학습으로 나뉨

지도 학습과 비지도 학습의 차이점

가장 큰 차이점: "Label"

  • 두 접근 방식의 주요 차이점은 ”데이터 세트에 label이 지정되어 있는지 아닌지”임
    • 지도 학습
      • label이 지정된 입력 및 출력 데이터를 사용
    • 비지도 학습
      • label이 지정되지 않은 데이터 사용

지도 학습 모델 알고리즘

  • label된 데이터 세트를 이용해 반복적으로 데이터를 예측하고 정답(label)과의 오차를 줄여나가며 학습
  • 지도 학습 모델은 비지도 학습 모델보다 더 정확한 경향이 있지만 데이터에 적절하게 레이블을 지정하려면 사전에 “데이터분석가의 주관” 개입이 필요함
    • 예: 지도 학습 모델은 시간, 기상 조건 등을 기반으로 통근 시간을 예측할 수 있지만 먼저 비가 오는 날씨가 운전 시간을 연장한다는 것을 알기 위해 훈련이 필요

비지도 학습 모델 알고리즘

  • label이 지정되지 않은 데이터의 고유한 구조를 발견하기 위해 자체적으로 작동
  • 결과의 유효성을 검사하려면 여전히 “데이터분석가의 주관” 개입이 보다 적극적으로 필요
    • 예: 비지도 학습 모델은 온라인 쇼핑객이 구매했던 제품들을 분석해 다른 온라인 쇼핑객에게 구매할 만한 물건을 추천해 줄 수 있겠지만, 데이터 분석을 통해서 추천 엔진이 추천해 준 항목들이 타당한지 검증해야 함

또 다른 차이점들

  • 지도 학습 모델은 훈련하는 데 시간이 많이 걸릴 수 있으며 입력 및 출력 변수에 대한 label에는 전문 지식이 필요함
  • 비지도 학습 방법은 출력 변수를 검증하기 위해 사람이 개입하지 않을 경우, 부정확한 결과를 가질 수 있음
  • 지도 학습과 비지도 학습 중 뭐가 더 좋다고 할 수 없으며 데이터의 구조나 사용 분야에 맞게 적합한 방식을 선택하는 것이 가장 중요!
구분내용
목표지도 학습에서 목표는 새로운 데이터의 결과를 예측하는 것
비지도 학습 알고리즘의 목표는 많은 양의 새로운 데이터에 대한 통찰력을 얻는 것
활용지도 학습 모델은 감정 분석, 일기 예보 및 가격 예측에 이상적
비지도 학습은 이상 감지, 추천 엔진, 고객 페르소나 및 의료 영상에 매우 적합
복잡성지도 학습은 일반적으로 R 또는 Python과 같은 프로그램을 사용하여 계산되는 비교적 복잡성이 낮은 머신러닝 방법
비지도 학습에서는 대량의 분류되지 않은 데이터로 작업하기 위한 다양한 통계적 지식 및 관련 라이브러리가 필요
비지도 학습 모델은 의도한 결과를 생성하기 위해 대규모 훈련 세트가 필요하기 때문에 계산적으로 복잡함

하지만, 실제 현업에서는 지도학습도 굉장히 복잡하게 진행합니다. 어렵게 하려면 얼마든지 어려워질 수 있습니다…
(현업 대화)
🙍‍♂️: 안녕하세요 소현님, 잘 지내시나요? 요새 어떤 일 하고 계세요?
👩‍🦰: 비지도 학습 하고 있습니다.
🙍‍♂️: ……………소현님 화이팅



지도 학습 살펴보기

다양한 특징 및 종류 살펴보기

"분류"와 "회귀"

  • 분류와 회귀의 차이점 알아보기
    • 예: 날씨
      • (분류) 내일은 날씨가 추울 것이다.
      • (회귀) 내일은 온도가 35.0℃일 것이다.
    • 회귀 모델은 예측값으로 연속적인 값을 출력하고, 분류 모델은 예측값으로 이산적인 값을 출력
      • 어떤 사람의 키와 몸무게를 데이터로 얻어 그 사람의 허리 둘레를 예측하는 모델은 회귀 모델
      • 입력으로 받은 사진이 어떤 동물인지 종류를 예측하는 모델은 분류 모델

지도 학습에 사용되는 기법

  • 선형 회귀(Linear Regression)
  • 로지스틱 회귀(Logistic Regression)
  • 나이브 베이즈(Naive Bayes)
  • K-최근접 이웃(k-Nearest Neighbors)
  • 서포트 벡터 머신(SVM, Support Vector Machine)
  • 의사결정 트리(Decision Tree)
  • 랜덤 포레스트(Random Forest)
  • 인공신경망(Neural Network)

재미있는 RFM(분류) 기법

  • RFM분석: 고객분류기법
    • 고객을 R, F, M 이라는 특성에 따라 분류하고, 특성에 맞춰서 구매 기회 창출 및 서비스를 발전시키는 것을 목표로 함

1. Recency(최근성)

  • 비즈니스의 종류(물건, 정보, 서비스 등)에 따라 다르지만, 보통 RFM분석에서는 최근에 구매한 고객일수록 더 가치있는 고객으로 점수를 매김
    • 구매시기가 오래되었다면, 재구매율이 보통 떨어지기 때문

2. Frequency(빈도)

  • 중요한 요소 중 하나인 빈도
  • 자주 구매하는 고객일수록, 비즈니스에 큰 도움이 되고 재방문율이 높다고 할 수 있음
  • 빈도수가 높을수록 가치있는 고객으로 점수가 매겨짐

3. Monetary(구매금액)

  • 구매금액이 높을수록 가치있는 고객으로 점수가 매겨짐
  • 구매빈도가 적더라도, 큰 금액을 지출하는 고객이 회사입장에서는 매출에 더 도움이 될 수도 있음

기준 세우기 예시

  • Recency: 2024-01-01 을 기준으로 한 달 이내에 구매기록이 있으면 ‘recent’ 아니면 ‘past’
  • Frequency: 구매횟수가 5회 이상 ‘high’ , 3~5회 ‘mid’, 나머지 ‘low’
  • Monetary: 누적 구매금액 500 달러 이상 ‘high’ 아니면 ‘low’

실전 적용 시 고려할 점

  • RFM 고객 세분화 분석에서 ‘반드시 이렇게 해야 한다’고 정해진 것은 아무것도 없음
  • 비즈니스의 성격에 따라, 상황에 따라 알맞은 기준을 세우는 과정이 필요함
  • 대표적으로 서비스마다 다르게 적용이 가능한 요소들
    • Recency, Frequency, Monetary를 각각 몇 단계로 나눌 것인가
    • Frequency, Monetary를 집계하는 기간을 어떻게 설정할 것인가


비지도 학습 살펴보기

"군집화"

  • 크게 군집화(비슷한 특성끼리 묶음)와 차원 축소로 나뉜다고 하지만, 실상 현업에서는 두 가지가 연결해 하나의 프로젝트로 진행
  • 정답이 없는 상태에서 분석을 시작하므로, 다양한 분석기법이 제외되거나 추가될 수 있음

전반적인 프로세스

  1. 기간 선정
  2. K값(군집 개수), 초기 컬럼(피쳐) 선정
  3. 이상치 기준선정 및 제외
  4. 표준화
  5. 차원 축소
  6. PCA PLOT 으로 군집 밀도 확인
  7. 2~7번 과정을 반복하며 최적의 결과 도출
  8. 모델링(Random Forest)
  9. 데이터 적재 및 자동화 설정

비지도 학습에 사용되는 기법

  • 군집(Clustering)
  • K-means 클러스터링
  • 위계적 군집분석
  • 가우시안 혼합모형(Gaussian Mix Texture Model)
  • 주성분 분석(PCA)
  • LLE(Locally Linear Embedding)
  • Isomap
  • MDS(Multi Dimensional Scaling
  • t-SNE(t-distributed Stochastic Neighbor Embedding)
profile
2 B R 0 2 B

0개의 댓글

관련 채용 정보