모집단 : 통계분석 방법을 적용할 관심 대상의 전체 집합
모수 : 모집단을 분석하여 얻어지는 결과 수치
-> 평균, 분산, 표준편차 등
표본 : 직접적인 조사 대상이 된 모집단의 일부
통계량 : 표본을 분석하여 얻어지는 결과 수치
-> 표본 데이터로 모집단 추론
분산 : 편차 제곱의 합을 변량 개수로 나눈 값
표준 편차 : 분산에 루트 씌운 거
개체 : 연구자 또는 관찰자가 관심을 갖는 대상
요인 : 개체의 특성 중 연구자가 관심을 갖는 특성
변수 : 요인을 구성하고 있는 요소
변수는 독립변수와 종속변수로 이루어짐
독립변수가 원인, 종속변수가 결과
분석 내용에 따라 다른 역할을 가짐
y = 0.1 + 0.2x
- y : 종속변수, x : 독립변수
기본 단위 : 자료를 구성하는 관찰 대상
변수(변량) : 시간에 따라 변하는 특성
수치형 변수
이산변수 : 셀 수 있는 정수값(유한한 범위)
연속변수 : 측정치 사이에 갭이 없는 연속 변수
정성적, 질적 자료
빈도 분석
분할표, 파이그래프, 모자이크 plot
명목형 변수와 순서형 변수로 나누어짐
크기X
단순 범주를 표시
단순 분류만 한 것이 아니라 순서도 있음
-> 순서 상대적으로 비교 가능
수치형 자료를 그룹화하여 순서형 자료로 바꿈
정량적, 양적 자료
범위형, 비율형
평균 / 분산 분석, 분포 분석
측정오차 존재
히스토그램, 상자그림, 산점도
이산형 변수와 연속형 변수로 나누어짐
셀 수 있는 형태의 자료
유한한 범위
등간형 변수
비교할 수 있도록 단위가 정해진 경우 +, - 만 가능
(온도: 20도가 10도보다 2배 더운 것X)
비율형 변수
0이 없음을 의미
사칙연산 가능
상호배타성 | 서열 비교 | 덧셈뺄셈 연산 | 자연적 0의 존재 | |
---|---|---|---|---|
명목척도 | O | X | X | X |
서열척도 | O | O | X | X |
등간척도 | O | O | O | X |
비율척도 | O | O | O | O |
분포 분석
데이터 특성을 분포로 설명
범위, 평균, 분산, 표준편차 등
대부분 분석 방법이 특정 분포를 가정
빈도 분석
범주별 출현빈도에 기반한 분석
빈도, 비율, 누적비율 등
특정 분포 가정 없이 빈도에 기반한 확률 사용
변수의 타입과 역할에 따라 다른 분석 기법 적용
어떤 기법을 사용하는지 잘 외워둘 것!