[기초통계] CH 1. 기초통계와 데이터분석 기초

이진호·2024년 10월 22일

제로베이스 데이터 분석 부트캠프

목록 보기

52/89

데이터의 종류

수치형 데이터 (Numerical)

정의:

수치값으로 표현 가능한 데이터
연속적 또는 이산적

예시:

연속적인 경우 = 키, 몸무게, 온도 등
이산적인 경우 = 판매된 제품의 개수, 사람 수 등

분석방법:

중앙값, 평균, 표준편차 등의 통계적 수치를 통해 분석 가능함
시각화 방법으로 히스토그램, 산점도 그래프 등이 있음

범주형 데이터 (Categorical)

정의:

명확하게 분류 및 라벨링할 수 있는 데이터

예시:

순서가 있는 경우 = 학력 수준 등
순서가 없는 경우 = 국적, 성별, 색상, 카테고리 등

분석방법:

평균이나 표준편차같은 통계는 X
각 카테고리의 빈도나 비율을 통해 분석
시각화 방법으로 바 차트, 파이 차트, 스택 차트 등이 있음

데이터의 종류를 알아야 하는 이유

분석기법

데이터의 유형에 따라 분석 방법이 다르기 때문
수치형은 회귀분석이 가능하지만, 범주형은 다른 방법이 필요함

전처리

데이터를 분석하기 전, 필요한 전처리 과정이 다름
NA값(빈 값) 처리도 수치형/범주형에 따라 방법이 달라짐, 범주형 데이터에 대한 인코딩 등..

시각화

데이터 유형에 따라 시각화 방법이 달라짐
수치형은 박스플롯 등, 범주형은 바/파이 차트 등...

지표(metric) 란??

모든 수치는 지표, 즉 metric이 될 수 있음. 그래서 지표가 무슨 역할을 하냐면
특정 현상이나 변화가 관측됐을 때, 지표를 관찰함으로서 해당 상황의 핵심을 파악할 수 있게 해줌
예를 들어, 사람들은 소비자물가지수를 확인함으로써 물가가 높아지는 상황/낮아지는 상황에 대응함

증감률(%) 과 퍼센티지 포인트(%p)의 차이

증감률(%):

정의:
이전 기간 대비 현재 기간의 값이 얼마나 변화했는지 나타내는 비율

예시:
지난달 매출이 10만원, 이번 달 매출이 11만원일 경우, 매출의 증가율은 10% 임

퍼센티지 포인트(%p):

정의:
퍼센트의 증감을 나타내는 단위로,
퍼센트 자체의 변화를 나타낼 때 사용함

예시:
지난해 시장점유율은 30%, 올해 시장점유율은 35%일 때, 시장점유율이 5%p 상승했다고 할 수 있음

그 외 지표 :
광고 - CTR, ROAS, Cost per Acquisition ...
운영 - DAU, Clicks, Time spent, Retention ...
마케팅 - CAC, NPS, CLTV, Shares ...
재무 - ROI, CAGR ...
(분석을 하는 도메인에 알맞게 지표를 설정해주어야 합니다.)

기술통계량 (Descriptive statistics)

기술통계량이 왜 필요할까?

기술통계량을 통해 데이터의 특징(중심 경향성, 퍼짐/형태/위치의 척도)을 빠르게 파악하고, 분석의 방향성을 결정할 수 있다고 합니다.
(예를 들어, A 제품의 월별 판매 데이터가 있을 때, 기술통계량을 사용하여 판매 추세/이상치/판매량의 변동 등을 빠르게 파악할 수 있음)

중심 경향성을 나타내는 지표:

평균:

말그대로 자료 전체의 평균(=경향)을 나타냄
단점: 극단적인 값(Outlier)에 영향을 받음

중앙값(Median):

크기순으로 정렬한 데이터에서 중앙에 위치한 값(정렬된 순서가 가운데인)
장점: 이상치에 영향을 받지 않음
단점: 자료의 수가 많아지면, 대표성이 사라짐

최빈값(Mode):

가장 빈도가 많은 값
장점: 숫자로 나타내지 못하는 자료의 경우에도 구할 수 있음
단점: 자료의 개수가 적은 경우, 자료 전체의 특징을 반영하지 못 할 수 있음. 빈도가 모두 동일한 경우, 중복이 발생할 수 있음

퍼짐을 나타내는 지표:

범위:

변동성을 파악하기 위한 가장 쉬운 방법
장점: 간단히 계산 가능
단점: 범위만 알 수 있어서, 데이터가 그 안에 어떻게 퍼져있는지는 알기 어려움

분산(Variance):

데이터가 중심(평균)으로부터 얼마나 멀리 떨어져있는지를 계산
장점: 자료가 평균에서 얼마나 흩어져 있는지에 대한 대표값
단점: 제곱을 해서 계산하므로, 수치가 직관적이지는 않음 (분산값만 봐선, 그래서 얼마나 떨어져있다는 건지 바로 파악하기 어려움)

표준편차(standard deviation):

분산에 루트를 씌워, 자료의 단위와 동일하게 표현한 값
장점: 자료의 단위와 동일하기 때문에, 직관적으로 해석할 수 있음

형태를 나타내는 지표:

왜도(skewness):

데이터의 비대칭도. 왼쪽/오른쪽으로 치우친 정도

첨도(kurtosis):

데이터의 뾰족함. 높은 값은 더 많은 꼬리+뾰족한 분포를 의미함

왜도와 첨도가 극단적이면 모델이 학습하기 어렵다고 함. 예를 들어서 첨도가 너무 낮으면 특징을 잡아내기 어렵다고 함.
즉, 데이터를 다듬어서 모델이 잘 학습할 수 있도록 하는 것이 최종 목표!

위치를 나타내는 지표:

백분위수(Percentile):

전체 데이터 중, 특정 백분율이 위치하는 값
(예 : 키 백분위수 95%야! = 상위 5%야)

4분위수(Quartile):

전체 관측값을 작은 순서로 배열한 후, 4등분하는 값
25%, 50%, 75%에 위치한 값 = 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)

정규분포와 정규성 검증

정규분포를 알아야 하는 이유?

표본의 평균을 추정하거나, 두 집단 간의 차이를 검정할 때 '정규'분포가 사용됨
많은 통계적 기법들이 정규분포를 기반으로 함

중심극한정리 ?

큰 표본의 평균은 곧 정규분포에 가까워진다는 것을 의미하며, 이는 다양한 분석 상황에서 통계적 추론의 근거가 됨
즉, 많은 기법들이 정규분포를 기반으로 하는데에 반해 실제 데이터들은 정규분포를 완벽히 따르진 않음. 하지만 큰 표본의 평균은 정규분포에 가까워지므로, 통계적 기법을 기반으로 추론할 수 있는 근거가 됨

데이터 정규성 검증

많은 통계적 기법들은 정규분포를 따르기 때문에, 우리가 분석할 데이터가 정규분포를 따를 수 있는지 검증하는 것은 분석의 정확성을 확보하는데에 매우 중요함

범주형 데이터 분석 예제

이상탐지 및 데이터 정제:

정규분포를 이해하면 데이터셋 내 이상치를 식별하고 처리하는 데에 도움이 됨
특히 표준편차를 기반으로 한 이상치 탐지는 데이터 전처리 과정에서 핵심

기계학습 알고리즘의 적용:

많은 기계학습 알고리즘들은 데이터가 특정 분포를 따른다고 가정
이러한 가정을 이해하는 능력은 알고리즘의 선택과 성능 향상에 중요함 (내 데이터셋이 어떤 분포를 띄는지 알고, 해당 분포에 맞는 알고리즘 활용할 줄 알게됨)

실험 설계:

A/B테스트 등 설계 시, 정규분포를 실험 결과 해석을 위한 기본적인 도구

표본의 개념과 표본평균의 의미

통계적 추론?

현실적으로 모든 모집단의 데이터를 수집하는 것은 어려운 일이므로, 특정 개수의 표본을 뽑아 모집단의 정보를 추측하는 과정

= 모집단을 몰라도, 표본평균을 이용해서 모집단의 평균을 예측할 수 있음
= 충분한 n(>30)을 여러 번 Sampling하면 모집단의 평균과 근접해지므로 모집단의 특성을 유추해볼 수 있음

정규성 검정(Normality test)?

정규성 검정이란, 특정 데이터셋이 정규분포를 따르는지 검증하는 과정, 필수적임

귀무가설(H0):

데이터셋이 정규분포를 따르는지 알아내는 가설

대립가설(H1):

귀무가설과 반대되는 가설, 즉 데이터셋이 정규분포를 따르지 않는지 알아내는 가설

정규성 검정 방법:

샤피로-윌크 검정
콜모고로프-스미르노프 검정
앤더슨-달링 검정
QQ-Plot

데이터셋에 여러 방법을 적용해보고, 정규성을 검증하는 것이 좋습니다.
정규성을 띄지 않는다고 해서 분석을 못 하는 것은 아니고, 정규성을 띄도록 데이터를 변환한 후 통계적 방법론을 통해 분석하면 됩니다.

🔵 흥미로웠던 점:
중간에 도메인별 통계 지표에 대해 간략하게 적어두었는데, 각 지표가 무엇을 의미하는지 간단하게라도 알아두어야 실제 분석할 때 유용하게 써먹을 수 있겠다고 생각했다. 오늘치 학습이 끝나고 찾아봐야겠다.

🔵 다음 학습 계획:
데이터의 관계를 파악하기 위한 기초분석 중, 상관관계와 회귀분석에 대해 배울 것입니다.

이진호

이전 포스트

[선형대수] CH 3. 선형대수학 (12) : Reduced SVD, 유사역행렬

다음 포스트