통계학 기초 01 데이터 분석과 통계

Data_Student·2024년 11월 11일
0

통계학 기초

목록 보기
1/10

통계학 기초 01 데이터 분석과 통계


1.1 데이터 분석에 있어서 통계가 중요한 이유

1) 통계가 중요한 이유

  • 데이터를 분석하고, 이를 바탕으로 결정을 내릴 수 있다.
  • 데이터 분석에서 통계는 데이터를 이해하고, 해석하는 데 중요한 역할
  • 데이터를 요약하고 패턴을 발견할 수 있음
  • 추론을 통해 결론을 도출하는 과정을 도움
  • 즉, 데이터 기반의 의사결정을 내릴 수 있음
    통계를 활용한 데이터 분석은 필수!

2) 실제로 통계가 어떻게 사용될까?

  • 고객 만족도 설문조사 분석 ( 파이 그래프 )
  • 고객 유형별 세그먼트 상품 추천 ( K-Means clustering )
  • 기업의 전략 수립
  • 마케팅 진행
  • 신제품을 개발하기 위해서 등등

1.2 기술통계와 추론통계

1) 기술통계
데이터를 요약하고 설명하는 통계 방법

  • 주로 평균, 중앙값, 분산, 표준편차 등을 사용
  • 즉, 데이터를 특정 대표값으로 요약
  • 데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음
  • 단, 데이터 중 예외(이상치)라는게 항상 존재할 수 있고, 데이터의 모든 부분을 확인할 수 있는 것은 아님

(1) 평균 (Mean)

  • 평균은 데이터의 총합을 개수로 나눈 값
  • 모든 데이터를 더한 후 데이터의 개수로 나누어 계산
  • 데이터의 일반적인 경향을 파악하는데 유용

(2) 중앙값 (Median)

  • 중앙값은 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
  • 이상치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법

(3) 분산

  • 데이터 값들이 평균적으로 얼마나 떨어져 있는지를 나타내는 척도
  • 데이터가 흩어짐 정도를 측정
  • 분산이 크면 데이터가 넓게 퍼져 있고, 작으면 데이터가 평균에 가깝게 모여 있음을 의미
  • 평균에서 각 데이터 값을 빼고 제곱
  • 그 값들을 모두 더하여 평균을 구하기

(4) 표준편차

  • 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도
    분산의 제곱근을 취하여 계산
  • 분산 값에 제곱근을 씌워 계산
  • 원래 데이터 값과 동일한 단위로 변환하여 보다 직관적

2) 추론통계

  • 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법

  • 주로 신뢰구간, 가설검정 등을 사용

  • 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심

  • 신뢰구간

  • 모집단의 평균이 특정 범위 내에 있을 것이라는 확률

  • 일반적으로 95% 신뢰구간이 사용되며, 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미

  • 가설검증

  • 모집단에 대한 가설을 검증하기 위해 사용

  • 귀무가설(H0) : 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설(변화가 없다, 효과가 없다 등)

  • 대립가설(H1) : 반대 가설로 주장하는 바를 나타내는 가설(변화가 있다, 효과가 있다 등)

  • p-value가 0.05 이하 일 경우 유의미한 결과가 나오며, 귀무가설을 기각할 수 있다.


1.3 다양한 분석 방법

1) 위치추정

  • 데이터의 중심을 확인하는 방법
  • mean(평균값), median(중앙값)

2) 변이추정

  • 데이터들이 서로 얼마나 다른지 확인하는 방법

  • 분산, 표준편차, 범위(range) 등을 사용

  • 범위

    • 범위는 데이터셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포의 측도
    • 범위(R) = 최댓값 - 최솟값

3) 데이터 분포 탐색

  • 데이터의 값들이 어떻게 이루어져 있는지 확인하기
  • 히스토그램과 상자 그림(Box plot)은 데이터 분포를 시각적으로 표현하는 대표적인 방법

4) 이진 데이터와 범주 데이터 탐색

  • 데이터들이 서로 얼마나 다른지 확인하는 방법
  • 최빈값(개수가 제일 많은 값)을 주로 사용
  • 파이그래프과 막대 그래프는 이진 데이터와 범주 데이터를 분포를 표현하는 대표적인 방법

5) 상관관계

  • 데이터들끼리 서로 관련이 있는지 확인하는 방법
  • 상관계수는 두 변수 간의 관계를 측정하는 방법
  • 상관계수를 계산해서 -1이나 1에 가까워지면 강력한 상관관계를 가진다.
  • -0.5나 0.5를 가지면 중간정도의 상관관계를 가진다.
  • 0에 가까울수록 상관관계가 없다
  • 상관계수와 산점도 그래프를 같이 표현

6) 인과관계와 상관관계의 차이

  • 인과관계는 상관관계와는 다르게 원인, 결과가 분명해야 함!
  • 상관관계는 두 변수 간의 관계를 나타내며, 인과관계는 한 변수가 다른 ㅂㄴ수에 미치는 영향을 나타냄

7) 두 개 이상의 변수 탐색

  • 여러 데이터들끼리 서로 관련이 있는지 확인
  • 다변량 분석은 여러 변수 간의 관계를 분석하는 방법

0개의 댓글