[데이터분석] 02. 통계적 검정, 데이터 분석 도구

요시롱·2023년 8월 31일

데이터 분석

목록 보기
2/5
post-thumbnail

검정 통계량

  • 차이나 관계의 유무를 확인하기(검정) 위한 차이값이다.
  • 검정 통계량을 사용하여 귀무가설의 기각 여부를 확인할 수 있다.
  • T통계량, χ²통계량, F통계량
  • 기준 대비 차이로 계산된 통계량은 '분포'를 가지며, 이 분포를 통해 타당성을 판단할 수 있다.
  • 이때의 판단기준이 'P-value'

데이터 분석 도구

앞으로 이어지는 데이터 분석 방법은 크게 한 가지의 변수를 다루는 단변량분석, 2개의 변수를 다루는 이변량분석으로 나뉘며, 각 분석에서 우리는 '시각화' '수치화' 도구를 통해 데이터를 파악할 것이다.

시각화

  • 파이썬의 matplotlib, seaborn 라이브러리를 이용한다.
  • seaborn 라이브러리가 적은 옵션 작성으로도 알아서(?) 잘 그려지는 경우가 많다 알잘딱깔센

수치화

  • 최대최소최빈값, 총합, 평균, 표준편차, 사분위수 등의 기초 통계량과 검정통계량, P-value 등을 통해 귀무가설을 기각하고 대립가설을 채택하기 위한 가설검정을 진행하게 된다.

데이터 분석 도구 사용 시 주의할 점

  • 데이터를 시각화 할 때, 디자인적으로 훌륭한 그래프도 좋지만, 중요한 것은 통계적으로 타당한 근거를 갖는 비즈니스 인사이트를 발견하는 것이다.

  • 시각화 자료와 통계량을 만드는 과정에서 정보가 요약되기 때문에 정보의 손실이 발생하며, 왜곡이 나타날 수 있다.

  • 어떤 도구이든 한계가 존재한다.
    ex. Datasaurus dozen
    - 특정한 기초통계량과 상관 관계를 사용하여 전혀 관계없는 다양한 그래프를 생성할 수 있다.


0개의 댓글