까미야 나에게 힘을 줘 ! ! !
머신러닝을 배우기 앞서 통계 용어 정리를 해보고자 합니다.
t검정 : 2개의 집단의 평균을 비교 할 때 사용
- 독립표본 t검정 : 성질이 다른 집단 간의 평균 비교 (세대에 따른 평균 소득 비교)
- 대응표본 t검정 : 동일한 집단의 전 / 후 상황 비교 (약을 먹기 전 / 후)
ANOVA(분산분석) 분석 : 3개의 집단 이상의 평균을 비교할 때 사용
- 3개의 집단 이상의 평균을 비교할 때 사용
예) 강남구, 마포구, 구로구 지역의 나무 개수 비교
- 독립성 검정 사례 : 관계의 유무를 볼 때 사용
예) 어느 동물병원에서 진료받은 동물의 나이와 진찰 부위를 구분하여 서로가 관계가 있는지 검정- 동질성 검정 사례 : 결과 수치를 볼 때 사용
예) n개의 꽃 품종을 3가지 토양 종류에 심고 식물의 성장상태가 다르다고 할 수 있는지 유의수준 5%에서 검정
회귀 분석 : 독립변수, 종속 변수를 비교할 때 사용
예) 방학과 초등학생 성적의 상관관계
독립변수 : 방학일수
종속변수 : 초등학생의 성적
다중회귀분석 : 여러가지 독립변수를 활용할 때 사용
예) *가뭄과 날씨의 상관관계
독립변수 : 일조일, 온도, 습도
종속변수 : 땅의 가뭄 정도
(1) 선형관계 : 두 데이터 값 사이에 직선식의 형태가 있을 때 선형 관계가 있다고 한다(두 변수는 연관성이 있다)
- 양의 상관관계 : 독립변수가 증가할 때 종속변수의 값도 증가하는 형태 우상향 그래프를 그린다.
예) 운동 진행 일수와 근육량의 상관관계. 운동을 많이 할 수록 근육량이 증가한다.
- 음의 상관관계 : 독립변수가 증가할 때 종속변수의 값은 감소하는 형태. 좌하향 그래프
예) 운동 쉬는 일수와 근육량의 상관관계. 운동을 쉬는 날이 증가할 수록 근육량이 감소한다.
(2) 결정계수 : 분석이 얼마나 정확한지 나타내는 계수
- 회귀 분석에서 결정계수는 0-1로만 나옴. 0으로 갈수록 분석이 정확하지 않고 1로 갈 수록 신뢰도가 높다
- 회귀식이 얼마나 정확한지 나타낸다
- 결정계수와 수정 결정계수의 차이가 클 수록 '독립변수'에 불필요한 요소가 들어갈 가능성이 있다. 따라서 결정계수와 수정결정계수의 차이가 클 시 독립변수를 재설정 해야 할 수 있다.
(3) 수정결정계수 : 독립변수의 수가 많아질 때 결정계수에 문제가 발생. 이를 보완하기 위해 만든 개념
귀무가설(=영가설) : 기각되기 위하여 설정한 가설
대립가설 : 귀무가설과 대립되는 가설. 귀무가설이 대립되면 대립가설이 통계 결과로써 의미를 갖는다.
알파값(a값, 유의수준) : 신뢰구간 추정용도. 알파값이 증가되면 오판 위험도가 증가함
알파값 계산 방법 : 1-신뢰구간 ex) 1-0.95 = 0.05(알파값)
p값 : 알파값과 비교하여 귀무가설을 기각하기 위한 용도로 사용
p값이 작을 수록 귀무가설과 표본이 모순된다.
신뢰구간 : 모수가 실제로 포함 될 것으로 예측되는 범위
- 집단 전체를 연구하는 것은 불가능 하므로 샘플링된 데이터를 기반으로 모수 범위를 추정하기 위해 사용됨
- 신뢰구간이 좁을수록 집단 평균 추정치가 정확해짐
오차 : 함수, 공식, 통계량으로 참 값 또는 이론적 값을 완전히 설명하거나 모형화 하지 못하는 정도를 나타냄
잔차 : 실제값 - 예측값