220405_TIL

신두다·2022년 4월 5일
0

TIL

목록 보기
8/82

Fact


오늘은 아래 내용을 배웠다.

  • T-test를 사용하기 위한 가정
    • 독립성, 정규성, 등분산성
  • Type of Error
    • Type I error (False positive), Tpye II error(False negative)
  • Non-Prametric Methos
    • 모집단이 특정 확률 분포를 따른다는 전제를 하지 않는 방식
    • 혹은 극단적 Outlier가 있는 경우 매우 유효한 방식이다.
  • Chi-square Test (중점)
    • one sample, two sample
    • 예측값 계산, 통계치 계산, Scipy를 이용한 실습
      • one sample에서 기대값이 주어지지 않았을 때는 자동으로 전체 데이터 합을 수로 나눈 것(=평균)이 기대값이 된다.
    • 자유도 개념 / 구하기 (Degrees of Freedom)

오늘은 아래 문제를 풀었다.

  • 공공 데이터 조작 연습 (불러오기, 조작)
  • one-sample chi-square test 실행
    • from scipy.stats import chisquare / chisquare(data)
  • two-sample chi-square test 실행
    - from scipy.stats import chi2_contingency chi2 = chi2_contingency(data, correction = False)
  • one-sample chi-square test 직접 손으로 풀어보기
  • 위의 한 것 함수 형태로 변경하기

그 외

  • Bi-modal : 서로 다른 두 개의 최빈값을 갖는 연속확률분포를 의미한다.
  • 정규성을 확인하는 것이 왜 중요할까? 에 대한 discussion에서 아래와 같은 답을 해보았다. 모르는 부분이 너무 많다.


Feeling


  • one-sample에서 기대값이 없는 경우 어떻게 해야 하나 상당히 헤맸다. two-sample도 계산하는 것은 처음에 어렵게 느껴졌었다.
  • chi-square 막상 파이썬 코드로 구현해서 하려니 어려웠다. 돌리고 결과 해석하는 것도 처음엔 헷갈지만 지금은 그래도 배운 만큼은 익숙해진 것 같다.

Finding


  • scipy 덕분에 chi-square test 비교적 쉽게 할 수 있지만, 어떤 원리로 돌아가는지는 잘 이해하는 것이 나중에 이 방법을 선택하고 결과를 해석할 때 중요할 것 같다는 생각이 든다.

Future action


주말에 보충해야 한다

  • 자유도에 대해 좀 더 공부해보자.
  • 예측값 계산하는 것 복습하자.
  • chi-square test python code 다시 보고 돌려보자.
profile
B2B SaaS 회사에서 Data Analyst로 일하고 있습니다.

0개의 댓글