Fact
오늘은 아래 내용을 배웠다.
- 기술 통계치(Descriptive Statistics) / 추리 통계치 (Inferential Statistics)
- 4 samplings
- simple random, systematic(규칙을 가지고), stratified random, cluster sampling
- 가설 검정
- T-test (w/ python)
- one, two sample t-test (one-tailed, two-tailed)
- 귀무가설, 대립가설
- p-value
- Z-test
- 편차, 분산, 표준편차, 정규분포, 표준오차 등 개념.
오늘은 아래 문제를 풀었다.
서울시 공공데이터를 가지고
- 가설 검정 (one-sample)
- 샘플링하여 가설 검정 (one-sample)
- two-sample t-test
- two-sample one-tailed test
그 외
- conditioning하는 것 헷갈려서 다시 공부했다. (loc, iloc은 조만간 공부노트에 별도로 정리해두어야 겠다)
[~df['자치구'.isin(['서울시', '시설관리공단')]
- 이런 식으로 특정 값 제외하고 쉽게 뽑을 수도 있다.
Feeling
- two-sample one-tailed test 개념을 이해하는데 상당히 헤맸다. 일단 의미와 사용까지는 알겠는데, 해석과 관련하여 본 자료 중 헷갈리는 부분이 있었다.
- 처음이라 개념에 익숙해지는 것에 지난 주 EDA 등보다는 종류가 다른 어려움을 느꼈다. 시간이 필요할 것 같다.
Finding
- 통계는 매우매우 중요한만큼 피해갈 생각은 하지 말자. 정면 승부다!
- 다만, 통계를 공부하는 건 분석을 잘하기 위해서인 것이다. 통계학자가 되려고 하는 것은 아니다. 어느 지점까지만 파고들고 넘어갈지 그 지점이 아직 정확히 감이 오는 건 아니지만, 통계학자가 될 것처럼은 하지 말고 어느 정도 배움의 선이 지나면 넘어갈 줄도 알아야겠다.
Future action
주말에 보충해야 한다
- sampling 4개 다시 한 번 직접 해보기
- two-sample one-tailed test 추가 공부