[기초통계] CH 1. 기초통계와 데이터분석 기초

이진호·2024년 10월 22일
0

데이터의 종류

수치형 데이터 (Numerical)

정의:

  • 수치값으로 표현 가능한 데이터
  • 연속적 또는 이산적

예시:

  • 연속적인 경우 = 키, 몸무게, 온도 등
  • 이산적인 경우 = 판매된 제품의 개수, 사람 수 등

분석방법:

  • 중앙값, 평균, 표준편차 등의 통계적 수치를 통해 분석 가능함
  • 시각화 방법으로 히스토그램, 산점도 그래프 등이 있음

범주형 데이터 (Categorical)

정의:

  • 명확하게 분류 및 라벨링할 수 있는 데이터

예시:

  • 순서가 있는 경우 = 학력 수준 등
  • 순서가 없는 경우 = 국적, 성별, 색상, 카테고리 등

분석방법:

  • 평균이나 표준편차같은 통계는 X
  • 각 카테고리의 빈도나 비율을 통해 분석
  • 시각화 방법으로 바 차트, 파이 차트, 스택 차트 등이 있음

데이터의 종류를 알아야 하는 이유

분석기법

  • 데이터의 유형에 따라 분석 방법이 다르기 때문
  • 수치형은 회귀분석이 가능하지만, 범주형은 다른 방법이 필요함

전처리

  • 데이터를 분석하기 전, 필요한 전처리 과정이 다름
  • NA값(빈 값) 처리도 수치형/범주형에 따라 방법이 달라짐, 범주형 데이터에 대한 인코딩 등..

시각화

  • 데이터 유형에 따라 시각화 방법이 달라짐
  • 수치형은 박스플롯 등, 범주형은 바/파이 차트 등...

지표(metric) 란??

  • 모든 수치는 지표, 즉 metric이 될 수 있음. 그래서 지표가 무슨 역할을 하냐면
  • 특정 현상이나 변화가 관측됐을 때, 지표를 관찰함으로서 해당 상황의 핵심을 파악할 수 있게 해줌
  • 예를 들어, 사람들은 소비자물가지수를 확인함으로써 물가가 높아지는 상황/낮아지는 상황에 대응함

증감률(%) 과 퍼센티지 포인트(%p)의 차이

증감률(%):

정의:
이전 기간 대비 현재 기간의 값이 얼마나 변화했는지 나타내는 비율

예시:
지난달 매출이 10만원, 이번 달 매출이 11만원일 경우, 매출의 증가율은 10% 임

퍼센티지 포인트(%p):

정의:
퍼센트의 증감을 나타내는 단위로,
퍼센트 자체의 변화를 나타낼 때 사용함

예시:
지난해 시장점유율은 30%, 올해 시장점유율은 35%일 때, 시장점유율이 5%p 상승했다고 할 수 있음

그 외 지표 :
광고 - CTR, ROAS, Cost per Acquisition ...
운영 - DAU, Clicks, Time spent, Retention ...
마케팅 - CAC, NPS, CLTV, Shares ...
재무 - ROI, CAGR ...
(분석을 하는 도메인에 알맞게 지표를 설정해주어야 합니다.)


기술통계량 (Descriptive statistics)

기술통계량이 왜 필요할까?

기술통계량을 통해 데이터의 특징(중심 경향성, 퍼짐/형태/위치의 척도)을 빠르게 파악하고, 분석의 방향성을 결정할 수 있다고 합니다.
(예를 들어, A 제품의 월별 판매 데이터가 있을 때, 기술통계량을 사용하여 판매 추세/이상치/판매량의 변동 등을 빠르게 파악할 수 있음)

중심 경향성을 나타내는 지표:

평균:

  • 말그대로 자료 전체의 평균(=경향)을 나타냄
  • 단점: 극단적인 값(Outlier)에 영향을 받음

중앙값(Median):

  • 크기순으로 정렬한 데이터에서 중앙에 위치한 값(정렬된 순서가 가운데인)
  • 장점: 이상치에 영향을 받지 않음
  • 단점: 자료의 수가 많아지면, 대표성이 사라짐

최빈값(Mode):

  • 가장 빈도가 많은 값
  • 장점: 숫자로 나타내지 못하는 자료의 경우에도 구할 수 있음
  • 단점: 자료의 개수가 적은 경우, 자료 전체의 특징을 반영하지 못 할 수 있음. 빈도가 모두 동일한 경우, 중복이 발생할 수 있음

퍼짐을 나타내는 지표:

범위:

  • 변동성을 파악하기 위한 가장 쉬운 방법
  • 장점: 간단히 계산 가능
  • 단점: 범위만 알 수 있어서, 데이터가 그 안에 어떻게 퍼져있는지는 알기 어려움

분산(Variance):

  • 데이터가 중심(평균)으로부터 얼마나 멀리 떨어져있는지를 계산
  • 장점: 자료가 평균에서 얼마나 흩어져 있는지에 대한 대표값
  • 단점: 제곱을 해서 계산하므로, 수치가 직관적이지는 않음 (분산값만 봐선, 그래서 얼마나 떨어져있다는 건지 바로 파악하기 어려움)

표준편차(standard deviation):

  • 분산에 루트를 씌워, 자료의 단위와 동일하게 표현한 값
  • 장점: 자료의 단위와 동일하기 때문에, 직관적으로 해석할 수 있음

형태를 나타내는 지표:

왜도(skewness):

  • 데이터의 비대칭도. 왼쪽/오른쪽으로 치우친 정도

첨도(kurtosis):

  • 데이터의 뾰족함. 높은 값은 더 많은 꼬리+뾰족한 분포를 의미함

왜도와 첨도가 극단적이면 모델이 학습하기 어렵다고 함. 예를 들어서 첨도가 너무 낮으면 특징을 잡아내기 어렵다고 함.
즉, 데이터를 다듬어서 모델이 잘 학습할 수 있도록 하는 것이 최종 목표!

위치를 나타내는 지표:

백분위수(Percentile):

  • 전체 데이터 중, 특정 백분율이 위치하는 값
    (예 : 키 백분위수 95%야! = 상위 5%야)

4분위수(Quartile):

  • 전체 관측값을 작은 순서로 배열한 후, 4등분하는 값
  • 25%, 50%, 75%에 위치한 값 = 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)

정규분포와 정규성 검증

정규분포를 알아야 하는 이유?

  • 표본의 평균을 추정하거나, 두 집단 간의 차이를 검정할 때 '정규'분포가 사용됨
  • 많은 통계적 기법들이 정규분포를 기반으로 함

중심극한정리 ?

  • 큰 표본의 평균은 곧 정규분포에 가까워진다는 것을 의미하며, 이는 다양한 분석 상황에서 통계적 추론의 근거가 됨
  • 즉, 많은 기법들이 정규분포를 기반으로 하는데에 반해 실제 데이터들은 정규분포를 완벽히 따르진 않음. 하지만 큰 표본의 평균은 정규분포에 가까워지므로, 통계적 기법을 기반으로 추론할 수 있는 근거가 됨

데이터 정규성 검증

  • 많은 통계적 기법들은 정규분포를 따르기 때문에, 우리가 분석할 데이터가 정규분포를 따를 수 있는지 검증하는 것은 분석의 정확성을 확보하는데에 매우 중요함

범주형 데이터 분석 예제

이상탐지 및 데이터 정제:

  • 정규분포를 이해하면 데이터셋 내 이상치를 식별하고 처리하는 데에 도움이 됨
  • 특히 표준편차를 기반으로 한 이상치 탐지는 데이터 전처리 과정에서 핵심

기계학습 알고리즘의 적용:

  • 많은 기계학습 알고리즘들은 데이터가 특정 분포를 따른다고 가정
  • 이러한 가정을 이해하는 능력은 알고리즘의 선택과 성능 향상에 중요함 (내 데이터셋이 어떤 분포를 띄는지 알고, 해당 분포에 맞는 알고리즘 활용할 줄 알게됨)

실험 설계:

  • A/B테스트 등 설계 시, 정규분포를 실험 결과 해석을 위한 기본적인 도구

표본의 개념과 표본평균의 의미

통계적 추론?

현실적으로 모든 모집단의 데이터를 수집하는 것은 어려운 일이므로, 특정 개수의 표본을 뽑아 모집단의 정보를 추측하는 과정

= 모집단을 몰라도, 표본평균을 이용해서 모집단의 평균을 예측할 수 있음
= 충분한 n(>30)을 여러 번 Sampling하면 모집단의 평균과 근접해지므로 모집단의 특성을 유추해볼 수 있음


정규성 검정(Normality test)?

정규성 검정이란, 특정 데이터셋이 정규분포를 따르는지 검증하는 과정, 필수적임

귀무가설(H0):

데이터셋이 정규분포를 따르는지 알아내는 가설

대립가설(H1):

귀무가설과 반대되는 가설, 즉 데이터셋이 정규분포를 따르지 않는지 알아내는 가설

정규성 검정 방법:

  • 샤피로-윌크 검정
  • 콜모고로프-스미르노프 검정
  • 앤더슨-달링 검정
  • QQ-Plot

데이터셋에 여러 방법을 적용해보고, 정규성을 검증하는 것이 좋습니다.
정규성을 띄지 않는다고 해서 분석을 못 하는 것은 아니고, 정규성을 띄도록 데이터를 변환한 후 통계적 방법론을 통해 분석하면 됩니다.


🔵 흥미로웠던 점:
중간에 도메인별 통계 지표에 대해 간략하게 적어두었는데, 각 지표가 무엇을 의미하는지 간단하게라도 알아두어야 실제 분석할 때 유용하게 써먹을 수 있겠다고 생각했다. 오늘치 학습이 끝나고 찾아봐야겠다.

🔵 다음 학습 계획:
데이터의 관계를 파악하기 위한 기초분석 중, 상관관계와 회귀분석에 대해 배울 것입니다.

0개의 댓글