[ZB] 기초통계

porii·2024년 10월 1일

[edu] zerobase

목록 보기
8/28

1. Numerical & Categorical Data

  1. 데이터의 종류
    1. Numerical Data(수치형)
      : 수치 값으로 표현되는 데이터. 연속적 or 이산적
      ex.) 연속적 : 키, 몸무게, 온도 등
      ex.) 이산적 : 판매된 제품 개수, 사람 수 등

      • 분석 방법
        • 중앙값, 평균, 표준편차 등의통계적 수치를 사용
        • 시각화 - 히스토그램, 스캐터플롯(산점도) 등
    2. Categorical Data(범주형)
      : 명확하게 분류 및 라벨링 될 수 있는 데이터
      ex.) 순서가 있는(ordinal) : 학력 수준 등
      ex.) 순서가 없는(Nominal) : 국적, 색상, 성별 등

      • 분석 방법
        • 각 카테고리의 빈도나 비율을 통해 분석
        • 평균이나 표준편차 같은 수치적 통계 X
          • 시각화 - 바 차트, 파이 차트, 스택 차트 등
  2. 데이터의 종류를 알아야 하는 이유
    1. 분석기법
      • 데이터의 유형에 따라 분석방법 다름
      • 수치형 - 회귀분석 가능
    2. 전처리
      • 데이터를분석하기 전에 필요한 전처리 과정이 다름
      • ex.) Null값 처리, 인코딩 방법 등
    3. 시각화
      • 데이터 유형에 따라 시각화 방법 달라짐

2. 지표 (Metric)

  1. 지표의 중요성
    • 모든 수치는 다 metric이 될 수 있음
    • 특정 현상 혹은 변화가 일어났을 때 metric을 관찰함으로 현상의 핵심 파악에 도움
    • 사람들이 관심을 두는 상황을 직관적으로 나타냄
    • 상황에 대한 대응에 도움
    • ex.) 사람들은 소비자물가지수를 확인함으로써 물가가 높아지는 상황에 대응, 물가가 낮아지는 시점 예측
  2. 증감률과 퍼센티지 포인트
    1. 증감률(%)

      : 기존 값 대비 값이 얼마나 변화했는지의 비율

      증감률=(현재값이전값이전값)×100증감률 = \left (\frac{현재값-이전값}{이전값}\right) \times 100

      • 특정 지표의 변동성이나 증감/성장률을 표현
    2. 퍼센티지 포인트(%p)

      : 퍼센트의 증감을 나타내는 단위 ( 퍼센트 자체의 변화를 나타냄)

  3. 도메인별 metric
    1. Ads
      1. CTR = (광고 클릭 수/광고 노출 수) * 100
      2. ROAS = 광고로 인한 수익 / 광고 비용
      3. Cost per Acquisition
    2. Streaming
      1. DAU = 일별 고객 수
      2. Clicks
      3. Time Spent
      4. Retention = (특정 기간 후에도 서비스를 계속 이용하는 사용자 수 / 처음 서비스를 이용한 사용자 수) * 100
    3. Marketing
      1. CAC = 특정 기간 동안의 총 마케팅 및 판매비용 / 동기간동안 획득한 새로운 고객 수
      2. NPS = 추천 ‘매우높음(9-10)’ 응답자 비율 - 추천 ‘낮음(0-6)’ 응답자 비율
      3. CLTV = 고객 당 평균 수익 * 고객 관계 평균 기간
      4. Shares
    4. Finance
      1. ROI = (투자로부터의 순수익 / 투자비용) * 100
      2. CAGR = ( 말기 가치 / 초기가치 )^(1/기간) - 1

3. 기술통계량(Descriptive Statistics)

  • 필요성
    • 데이터의 전반적인 특성을 이해
    • 특징을 빠르게 파악 이후 분석의 방향성 결정
  1. 중심 경향성
    1. 평균(Mean)

      • 자료 전체의 경향을 나타냄
      • 장점: 일반적인 대표값. 손쉽게 데이터의 경향 파악
      • 단점: 극단적인 값(outlier)에 영향을 받음
    2. 중앙값(Median)

      : 크기 순으로 정렬한 데이터에서 중앙에 위치한 값

      • 장점: 이상치에 대하여 강건(robust)
      • 단점: 자료 수 많아질수록 대표성 사라짐
    3. 최빈값(Mode)

      : 가장 빈도가 많은 값

      • 장점: 숫자로 나타내지 못하는 자료의 경우도 O
      • 단점: 자료의 개수 적으면 자료 전체의 특징 반영 X, 중복 O
  2. 퍼짐의 척도
    1. 범위(Range)

      • 변동성을 파악하기 위한 가장 쉬운 방법
      • 장점:간단히 계산 가능
      • 단점: 데이터의 퍼진 특성 고려하기 어려움
    2. 분산(Variance)

      : 데이터가 중심(평균)으로부터 얼마나 멀리 떨어져 있는지

      • 범위의 단점 보완
      • 장점: 자료가 평균에서 얼마나 흩어져있는지에 대한 대표값
      • 단점: 수치가 직관적이지 X (제곱하여 계산하므로)
    3. 표준편차(Standard Deviation)

      : 분산에 루트를 씌어 자료의 단위와 동일하게 표현

      • 장점: 자료의 단위와 동일하여 직관적 해석 용이
  3. 형태의 척도
    1. 왜도(skewness)
      : 데이터의 비대칭도. 왼쪽이나 오른쪽으로 치우쳐진 정도
    2. 첨도(kurtosis)
      : 데이터의 뾰족함. 높은값은 더 많은 꼬리와 뾰족한 분포
    • 왜도와 첨도는 정규분포와 밀접한 관계를 가지고 있다
    • 데이터를 다듬어서 모델이 잘 학습할 수 있도록 함
  4. 위치의 척도
    1. 백분위수(Percentile)
      : 전체 데이터 중 특정 백분율이 위치하는 값
    2. 4분위수 ( Quartile)
      : 전체 관측값을 작은 순서로 배열했을 때 전체를 사등분하는 값
      • Q1(25%), Q2(50%), Q3(75%)
      • IQR = Q1 ~ Q3

4. 정규분포와 정규성

  • 필요성
    • 통계적 분석의 기초 - 많은 통계적 방법론과 기법이 정규분포를 기반으로 함 ex.) 표본의 평균 추정, 두 집단 간의 차이 검정
    • 중심극한정리 - 큰 표본의 평균이 정규분포에 가까워짐 다양한 데이터 분석 상황에서 통계적 추론의 근거가 됨
    • 데이터 정규성의 검증 - 다수의 통계적 테스트와 기법은 ‘데이터가 정규분포를 따른다’의 가정 하에 검증 = 분석의 정확성 확보에 중요
    • 이상탐지 및 데이터 정제 - 이상치 식별에 도움 표준편차를 기반으로 한 이상치 탐지 = 중요
    • 기계학습 알고리즘의 이해 및 적용 - 다수의 기계학습 알고리즘은 데이터가 특정 분포를 따른다고 가정 알고리즘 선택과 성능 향상에 도움
    • 실험 설계 및 결과 해석 - 실험 결과의 해석을 위한 기본 도구(A/B 테스트와 같은 실험 설계 시)

표본 및 표본 평균

  • 통계적 추론 ( statistical inference ) : 표본 데이터를 이용하여 모집단의 정보들을 추측하는 과정
  • 중심극한정리 : 표본의 크기가 충분히 클 때, 여러 표본들의 표본평균이 이루는 분포가 정규분포에 가까워진다
    • 충분한 n(>30)을 기준으로 여러번 sampling진행 시 모집단의 평균과 근접 → 모집단 특성 유추
    • 전수조사 필요 X
  • 정규성 검증(Normality Test) : 특정 데이터 세트가 정규분포를 따르는 지 여부 검증
    • “데이터가 정규분포를 따른다 “가정 : 많은 통계적 방법론 및 기법이 유효하게 작동하기 위한 조건
    • 데이터 정규성 가정한 검정의 결과 믿을만한지 체크 귀무가설(H0) : 데이터 셋이 정규분포를 따른다 대립가설(H1) : 데이터 셋이 정규분포를 따르지 않는다
      • 샤피로-윌크 검정 (Shapiro-Wilk Test)
      • 콜모고로프-스미르노프 검정 ( Kolmogorov-Smirnov Test)
      • 앤더슨-달링 검정 (Anderson-Darling Test)
      • QQ-Plot (Quantile-Quantile Plot)
    • 정규성 검증에 통과 안되면 데이터를 변환시켜 정규성을 만족하게 하기도 함

5. 상관관계 & 회귀분석

  1. 상관분석

    : 연속형 변수로 측정된 두 변수 간의 선형적 관계를 분석하는 기법

    • A변수가 증가함에 따라 B변수도 증가 or 감소하는지 분석
    • 선형적 관계 정도를 나타내기 위해 상관계수( correlation coefficient) 사용
      상관계수 크기의미
      +- 0.8~1.0매우 강함
      +- 0.6~0.8강함
      +-0.4~0.6중간
      +-0.2~0.4약함
      +- 0.0~0.2매우 약함
      • 강한 상관관계를 가진 데이터를 찾는 경우는 거의 없다
      • 상관관계는 인과성을 증명하는 것이 아님 !!
    • 알고자 하는 것
      • 선형 관계 갖는가?
      • 선형관계 갖는다면 어느 방향인가?
      • 관계의 크기는 어느 정도인가?
  2. 상관계수

    1. 피어슨 상관계수(Pearson correlation coefficient)
      : 두 변수의 선형관계 측정

      • 일반적으로 사용되는 상관계수
      • -1 ~ 1 사이로 반환 1: 완벽한 양의 선형관계 -1: 완벽한 음의 선형관계
      • 실제로는 상관계수 0에 가까운 데이터가 대부분이다
  3. 대표 문제 유형

    일반적으로 ML/DL/을 활용하여 해결하려는 현업의 문제 유형

    • 회귀 ( Regression) - 연속형 변수 예측
    • 분류 (Classification) - 1,0 / a,b,c 예측
    • 군집 (Clustering) - grouping, segmentation- 군집별 특성 따라 전략 수립
    • 이상탐지(Unomy Detection)
  4. 회귀분석

    1. 목표
      : 독립 변수(X)와 종속 변수(Y)간의 관계 모델링 → 주어진 독립 변수에 대한 종속 변수의 값 예측

    2. 원리
      독립 변수와 종속변 수 간의 선형 방정식을 찾아내는 방법

      • 최적의 회귀 계수 찾음
    3. metric

      • MSE ( Mean Squared Error)(평균 제곱 오차) : 예측 값과 실제 값 차이를 제곱하여 평균한 값
        • 작을수록 예측이 정확
      • R2R^2(R-squared) : 모델이 설명할 수 있는 변동성의 비율
        • 1에 가까울수록 데이터를 잘 설명
    4. 대표 알고리즘

      • 선형 회귀(linear regression)
      • 다항 회귀(polynomial regression)
      • 릿지 회귀(ridge regression)
      • 라쏘 회귀(lasso regression)
      • 엘라스틱넷(elasticNet)
  5. 선형 회귀

    • 머신러닝 목적 : 실제 데이터를 바탕으로 모델 생성 → 다른 입력값을 넣었을 때 발생할 아웃풋 예측
    • 직관적이고 간단한 모델 = 선(line)
    • 선형 회귀(Linear Regression) : 데이터를 관찰하고 데이터를 잘 설명할 수 잇는 선을 찾는 분석 방법
      1. 단순선형회귀(simple linear regression)
      2. 다중선형회귀(multiple linear regression)
    1. 회귀식

      y^=β0+β1x\hat{y}=\beta_0+\beta_1x :

      y^\hat{y} : 예측된 회귀선

      β0\beta_0 : 절편(y intercept)

      β1\beta_1 : 회귀 계수(slope로 볼 수 있음)

      xx : 독립변수, 예측변수, 설명변수, 특성(feature)

      y^\hat{y} : 종속변수, 반응변수, 레이블, 타겟(target)

      • xx에 대한 y^\hat{y}와 실제값과의 차이 = 오차(error-모집단) | 잔차(residual-표본집단)
    2. 평가지표

      • MSE
        MSE=1Ni=1N(yiy^i)2MSE=\frac{1}{N}\displaystyle\sum_{i=1}^{N}(y_i-\hat{y}_i)^2
      • RMSE
        RMSE=MSE=(y^y)2nRMSE=\sqrt{MSE}=\sqrt{\frac{\sum(\hat{y}-y)^2}{n}}
      • 결정계수 R2R^2
        R2=SSRSST=1SSESSTR^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}
      • SSR
        : y의 전체 부분 중 내 모형이 이를 얼마나 설명하는가

0개의 댓글