데이터분석취업스쿨 스터디노트 - (4주차-3 기초통계01 ~ 02)

서보석·2024년 12월 3일
0

교육

제로베이스_데이터분석취업스쿨

강의

기초통계 챕터01~02
(기초통계와 데이터분석 기초, 데이터의 관계를 파악하기 위한 기초 분석)

느낀점

강의에서 말한대로 학문적으로 접근하는 것이 아니라, 끊임없이 어떻게 업무에 적용할 것인가 생각하며 강의를 듣는데 집중했다. 특히 해당 강의는 자격증 시험들을 치면서 익히 알고 있던 내용들이라 실습강의에서 COLAB을 통해 예제 데이터를 읽고 해석할 때 실무적 방식을 엿볼 수 있었다.

수업 내용

챕터01. 기초통계와 데이터 분석 기초

- Numerical & Categorical Data의 이해

  • 데이터의 종류

    Numerical (수치형)

    정의

    수치 값으로 표현되는 데이터
    연속적 또는 이산적일 수 있음
    예시
    연속적 : 키, 몸무게, 온도 등
    이산적 : 판매된 제품의 개수, 사람 수 등
    분석방법
    중앙값, 평균, 표준편차 등의 통계적 수치를 사용하여 분석할 수 있음
    시각화 방법 : 히스토그램, 스캐터 플롯 등

    Categorical (범주형)

    정의

    명확하게 분류 및 라벨링 될 수 있는 데이터
    예시
    순서가 있는 (Ordinal) : 학력 수준
    순서가 없는 (Nominal) : 국적, 색상, 성별 등
    분석방법
    각 카테고리의 빈도나 비율을 통해 분석
    평균이나 표준편차 같은 수치적 통계 X
    시각화 방법 : 바 차트, 파이 차트, 스택 차트 등

  • 데이터 종류 파악 이유

    분석기법

    데이터의 유형에 따라 분석방법이 다름
    ex) 수치형은 회귀분석이 가능, 범주형은 다른 처리가 필요

    전처리

    데이터를 분석하기 전에 필요한 전처리 과정이 다름
    ex) NA(빈값의 데이터) 처리, 인코딩 방법 등

    시각화

    데이터의 유형에 따라 시각화 방법이 달라짐
    ex) 수치형 - 박스플롯, 범주형 - 바, 파이 차트

- 지표(Metric)의 이해

  • 지표의 중요성

    Metric이란 지표라는 뜻으로, 모든 수치는 다 Metric이 될 수 있음

    Metric은 특정 현상 혹은 변화가 일어났을 때 Metric을 관찰함으로써 해당 현상의 핵심을 파악할 수 있도록 도움을 줌

    사람들은 소비자물가지수를 확인함으로써 물가가 높아지는 상황에 대응하고, 물가가 낮아지는 시점을 예측함

    Metric은 사람들이 관심을 두는 상황을 직관적으로 나타내며, 상황에 대한 대응을 도울 수 있음

  • 증감률 (%) vs 퍼센티지 포인트 (%p)

    %

    정의

    이전 기간 대시 현재 기간의 값이 얼마나 변화했는지 나타내는 비율
    수식
    증감률 = [(현재값 - 이전값) / 이전값] X 100
    예시
    지난달 100명의 고객이 있었고, 이번 달 110명의 고객이 있을 경우
    증감률 = ((100-100) / 100) X 100 = 10%
    → “고객 수가 지난 달 대비 10% 증가했다.”
    활용
    특정 지표의 변동성이나 증감/성장률을 표현

    ex) 매출 성장률 : 전년 대비 올해의 매출이 얼마나 성장했는지

    %p

    정의

    퍼센트의 증감을 나타내는 단위, 퍼센트 자체의 변화를 나타낼 때 사용
    예시
    지난해 A 제품의 시장 점유율이 30%였고, 올해 35% 상승
    시장 점유율 증가 : 35% - 30% = 5%p
    → “A제품의 시장 점유율은 지난해 대비 5%p 상승했다.”
    활용
    증감률과 혼동될 수 있는 상황에서 %p

    시장 점유율 (MS) : MS가 전월 대비 20%에서 25%로 5%p 증가했다

  • 다양한 Domain Metric

    해당 도메인에서 주요하게 쓰는 지표를 아는 것 중요

    Ads

    CTR = (광고 클릭 수 / 광고 노출 수) X 100 %
    ROAS = 광고로 인한 수익 / 광고 비용
    Cost per Acquisition

    Streaming

    Retention = (특정 기간 후에도 서비스를 계속 이용하는 사용자 수 / 처음 서비스 이용한 사용자 수 ) X 100 %
    DAU, Clicks, Time Spent

    Marketing

    CAC = 특정 기간 동안의 총 마케팅 및 판매 비용 / 통계기간 동안 획득한 새로운 고객 수
    NPS = 추천 ‘매우 높음’(9-10) 응답자 비율 - 추천 ‘낮음’(0-6) 응답자 비율
    CLTV= 고객 당 평균 수익 X 고객 관계 평균 기간

    Finance

    ROI - (투자로부터의 순수익 (투자 수익 - 투자 비용) / 투자 비용) X 100%
    CAGR = [(말기 가치 / 초기 가치) ^(1/기간)] - 1

- 기술통계량 (Descriptive statistics)

  • 기술통계량이란?

    학습의 필요성

    데이터 분석의 기본 단계는 데이터의 전반적인 특성을 이해하는 것
    기술통계량을 통해 데이터의 특징을 빠르게 파악하고, 분석의 방향성을 결정할 수 있음
    ex) 어떤 제품의 월별 판매 데이터가 있을 때, 기술통계량을 사용하여 판매 추세, 이상치, 판매량의 변동 등을 빠르게 파악할 수 있음
    중심 경향성 - 퍼짐의 척도 - 형태의 척도 - 위치의 척도

  • 중심 경향성

    평균(Mean)

    자료 전체의 경향을 나타내는 값으로 가장 많이 이용됨
    장점 : 일반적인 대표값으로 손쉽게 데이터의 경향을 파악할 수 있음
    단점 : 극단적인 값(Outlier)에 영향을 받는다.

    중앙값(Median)

    크기 순으로 정렬한 데이터에서 중앙에 위치한 값
    장점 : 이상치(Outlier)에 대하여 강건(robust)하다
    단점 : 자료의 수가 많아지면, 그 집단을 대표하는 대표성이 사라짐

    최빈값(Mode)

    가장 빈도가 많은 값
    장점 : 숫자로 나타내지 못하는 자료의 경우에도 구할 수 있음
    단점 : 자료의 개수가 적은 경우, 자료 전체의 특징을 반영하지 못할 수도 있음, 중복 발생

  • 퍼짐의 척도

    범위(Range)

    변동성을 파악하기 위한 가장 쉬운 방법 (minmax)
    장점 : 간단히 계산 가능
    단점 : 데이터의 퍼진 특성들을 고려하기 어려움

    분산(Variance)

    범위의 단점을 보완, 데이터가 중심(평균)에서 얼마나 멀리 떨어져 있는지 계산
    장점 : 자료가 평균에서 얼마나 흩어져 있는지에 대한 대표값으로 사용할 수 있음
    단점 : 제곱을 하여 계산하므로, 수치가 직관적이지 않음

    표준편차(Standard deviation)

    분산에 루트를 씌어 자료의 단위와 동일하게 표현한 값
    장점 : 자료의 단위와 동일하여 직관적으로 해석하기 용이

  • 형태의 척도

    왜도와 첨도가 극단적이면 모델이 데이터의 특징을 학습하기가 어렵다.

    “데이터를 다듬어서, 모델이 잘 학습할 수 있게 만드는 것이 최종 목표”
    “왜도와 첨도는 정규분포와 밀접한 관계를 가지고 있다.”

    왜도(skewness)

    데이터의 비대칭도. 왼쪽이나 오른쪽으로 치우쳐진 정도

    첨도(kurtosis)

    데이터의 뾰족함. 높은 값은 더 많은 꼬리와 뾰족한 분포 의미

  • 위치의 척도

    백분위수(Percentile)

    전체 데이터 중 특정 백분율이 위치하는 값
    ex) 우리 아이는 키 백분위수 95%야 (상위 5%야)

    4분위수(Quartile)

    전체 관측값을 작은 순서로 배열했을 때, 전체를 사등분하는 값
    25%, 50%, 75% → 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)

- 정규분포와 정규성 검증

  • 분석가는 왜 정규분포를 알아야할까?

    통계적 분석의 기초

    정규분포는 통계학에서 가장 기본적인 분포로 많은 통계적 방법론과 기법들이 정규분포를 기반으로 함
    예를 들어, 표본의 평균을 추정하거나 두 집단 간의 차이를 검정하는데 정규분포가 사용됨

    중심극한정리의 이해

    데이터 분석에서 중심극한정리는 매우 중요한 개념
    큰 표본의 평균이 정규분포에 가까워진다는 것을 의미하며, 이는 다양한 데이터 분석 상황에서 통계적 추론의 근거가 됨

    데이터 정규성의 검증

    많은 통계적 테스트와 기법들은 데이터가 정규분포를 따른다는 가정 하에 개발됨
    따라서 데이터가 이러한 가정을 만족하는지 검증하는 것은 분석의 정확성을 확보하는 데 중요합니다

  • 범주형 데이터 분석 예제

    이상탐지 및 데이터 정제

    정규분포를 이해하면 데이터 세트 내 이상치를 식별하고 처리하는데 도움이 됨
    표준편차를 기반으로 한 이상치 탐지는 많은 데이터 전처리 과정에서 핵심적인 부분

    기계학습 알고리즘의 이해 및 적용

    많은 기계학습 알고리즘들은 데이터가 특정 분포를 따른다고 가정
    이러한 가정을 이해하고 검증하는 능력은 알고리즘의 선택과 성능 향상에 중요한 역할

    실험 설계 및 결과 해석

    A/B 테스트와 같은 실험 설계 시, 정규분포는 실험 결과의 해석을 위한 기본적인 도구
    실험 데이터의 분석과 해석에서 정규분포를 이해하는 것은 필수

  • 표본의 개념과 표본평균의 의미

    통계적 추론(statistical inference)

    표본 데이터를 이용하여 모집단의 정보들을 추측하는 과정

  • 중심극한정리의 이해 (Feat. 정규분포)

    중심극한정리란?

    표본의 크기가 충분히 클 때, 여러 표본들의 표본평균이 이루는 분포가 정규분포에 가까워진다는 것

    즉 충분한 n(>30)을 기준으로 여러번 sampling을 진행할 시 모집단의 평균과 근접해지기 때문에 모집단의 특성들을 유추할 수 있음
    “모집단은 몰라도 표본평균을 이용해서 모집단의 평균을 예측할 수 있음” (전수조사 x)

    우리가 사는 실제 세계의 데이터, 즉 모집단은 절대로 다 확인해 볼 수 없다.
    우리는 언제나 표본을 추출해서 이를 통해 모집단을 유추할 수 밖에 없음
    근데 이 모집단들은 분포가 다양하고 언제나 내가 쉽게 분석할 수 있는 normal, 혹은 uniform distribution이길 기도할 수는 없다.

  • 정규성 검정

    정규성 검정이란? (Normality Test)

    특정 데이터 세트가 정규분포를 따르는지 여부를 검증하는 과정
    데이터가 정규분포를 따른다는 가정은 많은 통계적 방법론 및 기법들이 유효하게 작동하기 위한 전제 조건

    데이터 정규성을 가정한 통계 검정들의 결과가 믿을 수 있는지 없는지를 체크하는 가장 기본적인 체크방법

    귀무가설(H0) : 데이터셋이 정규분포를 따른다
    대립가설(H1) : 데이터셋이 정규분포를 따르지 않는다

    샤피로-월크 검정, 콜모고로프-스미르노프 검정, 엔더슨-달링 검정, QQ-Plot

챕터02. 데이터의 관계를 파악하기 위한 기초분석

- 상관관계 & 회귀분석

  • 상관분석이란?

    연속형 변수로 측정된 두 변수 간의 선형적 관계를 분석하는 기법
    A변수가 증가함에 따라 B변수도 증가되는지 혹은 감소하는지를 분석하는 것
    선형적인 관계 정도를 나타내기 위해 상관계수(correlation coefficient)를 사용

    상관분석에서 알아보자 하는 것

    선형관계를 갖는가?
    선형관계를 갖는다면 어느 방향인가?
    그 관계는 얼마나 큰가?

    매우 강한 상관관계 (+-0.8 ~ 1.0), 강한 상관관계 (+-0.6~0.8), 중간 정도 상관관계 (+-0.4 ~ 0.6), 약한 상관관계 (+-0.2 ~ 0.4), 매우 약한 상관관계 (+-0 ~ 0.2)

  • 피어슨 상관계수 (Pearson correlation coefficient)

    두 변수의 선형 관계를 측정함
    값을 -1에서 1사이로 반환하여 1은 완벽한 양의 선형 관계, -1은 완벽한 음의 선형 관계를 나타냄

  • 대표 문제 유형 summary

    일반적으로 ML/DL을 활용하여 해결하려는 현업의 문제 유형은 정해져 있음
    회귀 - 분류 - 군집 - 이상 탐지

  • 회귀분석

    목표

    독립변수(X)와 종속변수(Y) 간의 관계를 모델링하여, 주어진 독립변수에 대한 종속변수의 값을 예측하는 것

    원리

    선형회귀는 독립변수와 종속변수 간의 선형방정식을 찾아내는 방법으로, 주어진 데이터를 가장 잘 설명하는 최적의 회귀계수를 찾고 이를 통해 새로운 독립변수값에 대한 종속변수값을 예측할 수 있음

    Metric

    평균제곱오차(Mean Squared Error, MSE), MSE는 예측값과 실제값 사이의 차이를 제곱하여 평균한 값으로, 모델의 예측 정확도를 측정함.
    MSE가 작을수록 모델의 예측이 더 정확하다고 판단 R^2 (R-squared) 값도 자주 사용되는 평가 지표
    R-제곱은 종속 변수의 총 변동성 중 모델이 설명할 수 있는 변동성의 비율을 나타내며, 1에 가까울수록 모델이 데이터를 잘 설명한다고 판단됨

    대표 알고리즘

    선형회귀(Linear Regression), 다항회귀(Polynomial Regression), 릿지회귀(Ridge Regression), 라쏘 회귀(Lasso Regression), 엘라스틱넷(ElasticNet)

    머신러닝(Machine Learning)의 가장 큰 목적은 실제 데이터를 바탕으로 모델을 생성해서 다른 입력값을 넣었을 때 발생할 아웃풋을 예측하는데 있음
    우리가 찾아낼 수 있는 가장 직관적이고 간단한 모델은 선(line)
    데이터를 관찰하고 데이터를 잘 설명할 수 있는 선을 찾는 분석방법을 선형회귀(Linear Regression)라고 함
    Regression은 Simple Linear Regression(단순선형회귀)와 Multiple Linear Regression(다중선형회귀)로 나뉨

    종속변수 = 반응변수 = 레이블 = 타겟
    독립변수 = 예측변수 = 설명변수 = 특성
    y_hat : 예측된 회귀선
    β_0 : 절편(y intercept) / β_1 : 회귀계수(slope, 기울기)
    잔차 (Residual, 표본집단) / 오차(Error, 모집단)

  • 평가지표

    MSE = (1/N) ∑(y_i-y햇_i)^2
    RMSE = 루트_MSE
    결정계수 = R^2 = SSR / SST = 1- (SSE / SST)

    SSR : y의 전체 부분 중 우리의 모형이 이를 얼마나 설명하는가! (설명할 수 있는 변동성)

  • 선형회귀분석 결과 해석 순서 안내

    Step1. 유의성 검증

    계산한 x의 계수가 실제로 일반화할 수 있는 수치인지 확인하는 과정
    계수의 p-value가 유의한지 검증하는 것으로 진행
    사회과학에서는 0.05보다 작으면 계수는 유의한 것으로 해석

    Step2. 방향성 확인

    내가 세운 가설대로 계수의 방향성이 나오는지 확인하는 과정
    예를 들어 +라고 가설을 세웠는데, 반대의 경우가 나오는지 확인하는 것

    Step3. 효과의 크기

    계수 자체의 절대값을 측정하는 것
    유의하더라도 만약 그 효과 크기가 너무나도 작다면, 실험 결과를 반영하지 않을 수도 있다
    예를 들어, A버튼보다 B클릭이 전환율이 높은데, 0.000001%p 높다고 하자
    그런데 A버튼 → B버튼 개발하는데 1억이 들어간다면 결과를 있는 그대로 수용하기 힘들 수도 있다.

    Step4. 모델 적합성

    개념 : 통계모델이 “데이터셋을 전체적으로 얼마나 잘 설명했는가”를 나타내는 것이 모델 적합도이다.
    쉽게 말해서 주어진 데이터셋을 모델이 오차범위 내에서 설명을 했다면 적합한 모델이라고 판단하는 것이다.

    "이 글은 제로베이스 데이터 분석 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다."
profile
안녕하세요

0개의 댓글