[통계기초] 세션 1121

Hyunjun Kim·2024년 11월 21일

통계학기초

목록 보기
8/24

오늘 목표
통계와 머신러닝의 관계성
머신러닝의 종류
지도/비지도 학습의 특징과 종류

통계와 머신러닝

데이터 분석이라는 분야는 대표적으로 통계적 가설검정과 머신러닝이 존재하고 두 가지.방법론은 긴밀하게 연관됭 ㅓ있다.

머신러닝은 무엇인가?

정의 : 데이터 기반으로 에측 모델을 학습시키는 알고리즘 기반의 접근법
목적 : 주어진 데이터를 통해 패턴학습해 미래 데이터 예측/분류 하는 것

비슷하 ㄴ듯 다른 . 두개념 핵심요약

통계적 가설 검정 / 머신러닝
작은 데이터 / 대규모
p-value / 모델 정확,정밀 등 평가지표
선형, 해석 가능 / 비선형, 복잡패턴
의학, 사회과확 등 가설검증 필요 분야 /. 산업 자동화, 추천시스템 등 대규모 데이터 활용 분야

통계적 가설검정 종류
평균차이 검정(T,Z - Test)
분산차이검정(F-Test)
분포검정(카이제곱)
상관관계 검정 (Pearson/Spearman/Cramer's V)

머신러닝 종류
지도, 비지도, 강화학습, 딥러닝

두 가지 방법론 들을 전부 사용해줘야 함.

컬럼이 너무 많고 데이터셋이 막연하게 많은 경우.
통계적 가설 검정이 가지는 제약을 머신러닝이 풀어준다.

결론 : 통계적 가설 검정, 머신러닝이 상호 보완 관계.
두 가지 방법론의 융합 (통계적 가설검정을 사용해 데이터 탐색 및 초기 분석을 수행한 후, 머신러닝을 통해 예측해 성능을 극대화 함)

머신러닝 종류

현업에서는 강화학습 을 많이 사용하는 추세는 아님.

지도학습

정답 있는 데이터를 활용해 훈련데이터로부터 프로그램 등을 학습시켜 결과에 대한 예측을 만듦. 정확한 범주가 지정되어 있음. 라벨링 되어 있는 상태.

비지도학습

정답이 없는 데이터.를 분석함으로써 숨겨진 패턴 찾아내거나 그룹화
데이터가 input 된 다음 머신러닝을 판단.
정답 없는 상태에서 시행
패턴 찾기 위해서 사용하는 비지도 학습.

분석가가 해석도 해야해. 역추적도 해야해.

지도학습과 비지도학습의 차이점

지도학습 반복적으로 데이ㅓ를 예측하고 정답과 오차를 줄여나가며 학습하기 때문에
지도학습 모델은 비지도 학습 모델보다 . 더정확한 경향이 있지만 데이터에 적절하게 레이블을 지정하려면 사전에 데이터분석가의 주관 개입이 필요하다.
(예 들어 비 오면 운전시간 연장된다 는 것을 알기 위해서. 훈련이 필ㅇ하다>)

비지도 학습은 . 더적극적으로 주관의 개입이 필요하다..

지도학습은 모델 훈련하는ㄴ데 시간이 많이 걸릴 . 수있고 입력 및 출력 변수에 대한 label 에는 전문 지식이 필요하다.
비지도가 고객을 나눴는데 어떻게 나눴는지 알 수 없을 수도 있고 해석이 너무 중요하다.
비지도는 출력 변수를 검증하기 위해 사람이 개입하지 않을 경우, 부정확한 결과를 가질 . 수있습니다.

지도학습 : 감정분석, 일기 예보 및 가격 예측에 이상적
비지도학습 : 이상 감지, 추천 엔진, 고객 페르소나 및 의료 영상에 매우 적합

지도학습 살펴보기

지도학습은 분류와 회귀로 나뉜다.

분류 ) 내일 날씨가 추울 거시다
회귀 ) 내일 온도가 35.0도 일 것이다
예측값으로 연속적인 값을 출력하고, 분류 모델은 예측값으로 이산적인 값을

지도학습에 사용되는 기법

  • 선형회귀
  • 로지스틱
  • 나이브베이즈
  • KNN
  • 서포트 벡터 머신
  • 의사결정 트리
  • 랜덤포레스트
  • 인공신경망

RFM(분류) 분석

RFM 분석은 고객분류 기법이다. 고객을 R,F,M 세가지 특성에 따라 분류하고 특성에 따라서 발전시키는 것.

Recency(최근성)
비즈니스의 종류(물건, 정보, 서비스 등)에 따라 다르지만, 보통 최근 구매한 고객일수록 . 더가치 있는 고객으로 점수가 매겨진다. 구램 오래되면 재구매율 떨어지기 때문.

Frequency(빈도)
중요 요소. 자주 구매하는 고객일수록, 비즈니스에 . 큰도움이 되고 재방문율이 높다고 할 수 있다.

Monetry(구매금액)
마지막 핵심 지표. 구매 빈도가 적더라도 큰 금액을 지출하는 고객이 회사입장에서는 매출에 . 더 도움이 될 수도 있다. 구매 금액이 높을수록 가치 있는 고객으로 점수가 매겨짐.

기준 세우기 예시

Recency : ~기준 한 . 달이내 구매기록이 있으면 Recnet, past
Frequency : 구매 횟수 n회 이상

비지도 학습 살펴보기

비지도 학습은 군집화 입니다

크게 군집화와 차원 축소로 나뉜다고 하지만 실상 현업에서는 두 가지가 연결되어 하나의 프로젝트로 진행됨

  1. 기간 설정
  2. k값(군집 갯수) , 초기 컬럼(피텨) 선정
  3. 이상치 기준선정 및 제외
  4. 표준화
  5. 차원 축소
  6. PCA PLOT 으로 군집 밀도 확인
  7. 2~7번 과정을 반복하여 최적의 결과 도출
  8. 모델링 (Random Forest)
  9. 데이터 적재 및 자동화 설정

비지도 학습에 사용되는 기법

  • 군집
  • k-means
  • 위계적 군집분석
  • 가우시안 혼합 모형
  • 주성분 분석
  • LLE
  • lsomp
profile
Data Analytics Engineer 가 되

0개의 댓글