음 SQL? 재밌군.. 음 판다스? 재밌군..
음 통계학 기초? 나쁘지 않아..
음 파이썬? 우우 붐따
코드나 쿼리를 입력하고 실행했을 때,
자료가 촤라락 나오는 프로그램을 좋아하는 것 같다.
한 것 :
1) 기술 통계
데이터를 요약하고 설명하는 통계 방법.
사람을 처음 만날 때 그 사람의 전부는 알 수 없지만, 기본적인 인적 사항(외모, 직업, 학려그 나이 등등)으로 대략적 파악이 가능한 것과 같음
학생 네 명의 시험 점수는 70, 80, 90, 100으로 가정. 평균은 85점.
각 데이터 값에서 평균을 뺀 값을 제곱하면?
값을 모두 더한 후 데이터의 개수로 나누면?
분산 = (225 + 25 + 25 + 225) / 4 = 125
네 명의 학생 시험 점수는 70, 80, 90, 100`으로 가정. 평균은 85점.
(70 - 85)^2 = 225
(80 - 85)^2 = 25
(90 - 85)^2 = 25
(100 - 85)^2 = 225
분산은 (225 + 25 + 25 + 225) / 4 = 125.
표준편차는 분산의 제곱근.
분산에 루트(root)를 씌워 약 11.18
표본 데이터를 통해 모집단의 특성 추정 & 가설 검정하는 통계 방법
-주로 신뢰구간, 가설검정 등을 사용함.
누군가의 인생을 전부 다 본 건 아니지만, 대화를 통해 얻어낸 정보로 어떤 사람일지 알아가는 것과 같음
평균 만족도: 75점. 신뢰구간: 70점~80. 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 판단 가능
설을 검증하기 위해 사용됨.
일반적으로 귀무가설과 대립가설이 있음
귀무가설(H0):
검증하고자 하는 가설이 틀릴 때 나타내는 기본 가설.
(변화 없음, 효과 없음 등)
대립가설(H1):
주장하는 바를 나타냄
(변화가 있음, 효과 있음 등)
p-value를 통해 귀무가설을 기각할지 여부를 결정함
ex) 새로운 교육 프로그램이 학생들의 성적에 영향을 미치는지 알고 싶다! 귀무가설: "프로그램이 성적에 영향을 미치지 않는다" 대립가설: "프로그램이 성적에 영향을 미친다"