학교를 다닐 때 행정계량, 금융계량 강의를 들으면서 지겹게 공부를 했는데 말로 이야기하려니 딱 설명할 수 없어서 따로 정리를 하려고 한다. 사회조사 분석사 딸때만 해도 서술형 때문이라도 줄줄 이야기할 수 있었는데..... 지금 제대로 정리해서 기록을 해두면 나중에도 이야기할 수 있을 것이다.
변수 : 값이 달라질 수 있는 것
상수 : 값이 달라지지 않는 것
독립변수 : 원인이 되는 것 , 설명변수
종속변수 : 결과가 되는 것 , 반응변수
질적변수 - 수치로 나타낼 수 없는 변수 - 성, 혈액형, 직종
양적변수 - 수치로 나타낼 수 있는 변수 - 체중 키 온도
등간 변수 : 특성에 서열 + 상대적인 차이까지 제시
'0'의 의미 : 사람이 인위적으로 만든 0, IQ가 0이라고 지능이 0은 아니다.
비율 변수 : 특성에 서열 + 상대적인 차이 + 절대 영점
'0'의 의미 : 절대적인 0으로 존재, 소득이 0이면 0이고 무게가 0이면 0이다.
예시 - 연령 / 무게 / 시간 / 거리 / 소득 / 교역량
이산변수 - 하나하나 셀 수 있는 정수값을 가지는 변수- 학생 '수'
연속변수 - 소수점 이하의 값을 가질 수 있는 변수 - 체중 키 온도
전체합 / 전체 갯수
자료를 작은값(큰 값)부터 정렬했을 때 빈도로 가운데에 놓이는 자료
가장 빈도수가 많은 자료
가장 큰 부분과 작은 부분을 제거 후 평균을 산출
이상치가 존재하는 자료의 경우 이상치의 영향을 배재하기 위해서, 자료의 총 개수에서 일정비율만큼 가장 큰 부분과 작은 부분을 제거 후 평균을 산출한다.
10% 절사평균 : 상위 10% 하위 10% 위치한 값 삭제한 뒤 산술평균을 구한다.
20% 절사평균 : 상위 20%, 하위 20% 위치한 값 삭제한 뒤 산술평균을 구한다.
예시 : 올림픽 심사위원 최고점 최저점 제외하고 평균
최대값 - 최소값
전체 데이터를 4등분했을 때의 각 부분값 , 1/4, 2/4, 3/4 , 4/4
확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자
분산의 음이 아닌 제곱근
평균과 개별 관측치 사이 거리의 평균
중위값과 개별 관측치 사이 거리의 평균
확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
분포가 정규분포에 비해 얼마나 비대칭인지 나타내는 척도
왼쪽
으로 몰려있음 - mode < median < mean오른쪽
으로 몰려있음 - mean< median < mode3(mean- medain)/ sd
참고 문서
위키백과
[강의정리] 기초통계2:기술통계량
비모수 검정 / 모수 검정
귀무가설
H0 = 기온 과 아이스크림은 상관관계가 없다
이다. 대립가설
연구와 실험을 통해서 입증, 규명하고자 하는 가설
양측 대립가설 : 두 집단은 같지 않다. (H1: A ≠ B)
단측 대립가설 : A집단이 B집단보다 크다 (H1: A > B)
1종오류/ 2종오류
참
- H0를 기각
거짓
- H0를 채택
유의확률(p-value)
귀무가설이 참이라 가정
했을 때 얻은 검정 통계량보다 크거나 같은 값을 얻을 수 있을 확률
을 의미한다.
통계분석의 sampling
적인 특성에서 기인
모든 데이터를 확인할 수 없기 때문에 샘플을 뽑아서 해당 데이터에 관해서만 분석을 진행
뽑아온 데이터의 평균이 실제 모평균과는 다를 가능성이 존재!
유의확률의 정의는 두가지 부분으로 구성 귀무가설이 참이라 가정
/얻은 검정 통계량보다 크거나 같은 값을 얻을 수 있을 확률
확률이 낮은 사건이 일어난 경우
우연히 일어났다고 가정하기 보다는 일어날만한 이유가 있었을 것이다
라고 생각을 하게 된다.
그러면 평균과는 차이가 큰 자료가 낮은 확률로 샘플링되었다
(확률이 낮은 사건) 면 이 경우 평균이 잘못되었다(귀무가설이 잘못되었다)
생각을 하여 귀무가설을 기각하고 대립가설을 채택하게 되는 것이다.
참고 : https://adnoctum.tistory.com/332
t-검정
z- 검정
참고 : https://bioinformaticsandme.tistory.com/186
분산분석
카이제곱 검정(교차분석)
F검정
모집단의 수가 2개 이상일 때
두 변수간의 상관관계를 분석
상관계수( -1<=r<=1 )를 통해 얼마나 관련이 되어있는 지 확인 가능
r > 0 : 양의 상관관계
r =0 0 : 상관관계 없음
r > 0 : 음의 상관관계