5/6 통계 학습

boks·2024년 5월 6일

수학

목록 보기
2/7
post-thumbnail

📖 학습한 내용

  • 가설검정 방법 구분해 사용하기
  • 대푯값 비교 중 모수 검정의 평균값 비교

📖 핵심내용

📌가설검정 방법 구분해 사용하기

  • 어떤 가설검정 방법이든지 해석의 기본 흐름은 다음과 같다.

    1. 귀무가설 설정
    2. 데이터로 검정통계량 계산
    3. 귀무가설이 옳다는 가정하에 검정통계량의 이론적 분포를 생각, 데이터로 얻은 검정통계량이 어느 위치에 있는지 산출
  • 어떤 가설검정을 할지 선택할때 고려할 사항

    데이터 유형 - 양적변수/질적변수
    표본수 - 1표본/2표본/다표본
    양적 변수 분포의 성질 - 모수검정/비모수검정

📌모수검정의 평균값

  • 일표본 t검정

    어떤 가설의 결과를 알고 있다면, 그것을 이용하여 비슷한 가설을 만들고 맞는지 틀리는지 검정하는 것

  • 이표본 t검정

    두개 표본의 평균값 차이가 어떻다고 가정해놓고 그것을 검정하는 것
    보통 정규성이 있어서 등분산성이 있다. 그렇지 않다면 웰치의 t검정을 이용해야한다.

  • 대응 관계가 없는 검정과 대응 관계가 있는 검정

    대응관계가 있는 검정의 예시
    같은 집단의 실험 전/후 데이터 비교
    -> 데이터의 차이가 있다면, 차이 평균값은 0이라고 가정한뒤 일표본 t검정 실행
    -> 대응관계가 있는 데이터를 이용하는게, 제2종 오류 발생확률이 낮아지고, 검정력이 오른다.

  • 정규성 조사

    Q-Q플롯, 샤피로-윌크검정, K-S검정 등이 있지만, 사실 현실적으로는 적극적으로 정규성이 있다고 주장하기는 어렵다.

  • 등분산성 조사

    정규성 조사와 마찬가지로 여러 가설 검증이 있지만, 적극적으로 등분산성이 있다고 주장하기 어렵다.

📖 흥미로운 점 / 새로 알게된 점

  • 몇몇 상황에서 가설검정을 하는 예시를 볼 수 있어서 좋았다. 데이터 분석가가 되려면 어떤 가설을 잘 설정하는 것이 가장 중요한데(문제설정), 지금 미리 경험하는 것 같았다.
  • 가설을 검증하기 위해, 그 요소들을 또 가설검증을 하는게 신기했다. 그리고 그렇게해도 적극적으로 있다고 주장못하는게 참 아이러니했다. 이럴거면 왜하지...?
    통계한 확률의 학문이라 애매한 부분이 있어 납득하기 어려운 부분이 있다.

📖 어려운 부분

  • 책의 앞부분 내용이 확실하게 머릿속에 없는 부분도 있다. 개념적인 부분이 확실하게 인지되지 않은 상태이다. 그래서 책을 읽어나가는 속도가 너무나도 느렸다. 표본오차의 개념이 갑자기 헷갈려서 앞쪽부분을 다시 한참 읽어본 뒤에야 진도를 나갈 수 있었다.

📖 이후 학습 계획

  • 주말에는 앞으로도 꾸준히 '통계101 데이터분석' 책을 읽으며 데이터분석에 쓰이는 통계를 익힐 생각이다. 5월 11일날 다시 책을 읽을 생각이다.
  • 깃허브에서 좋은 자료들을 검색해가며 부족한 부분을 채울 생각이다.
  • 2번 안에 가설검정 파트를 모두 읽을 계획이다.
profile
설계엔지니어의 변신

0개의 댓글