자료분석
자료분석
- 자료분석은 데이터에서 변수와 관측치를 확인한다. 또한 모수(전체)를 대상으로 분석할 수가 없으므로 표본을 추출하여 자료를 분석한다.
- 해당분야의 관련지식과 통계지식을 사용해서 최선의 의사결정을 하기위해 자료를 정리하고 분석하는 활동
- 자료분석을 위해서 변수와 상수를 사용, 변수는 값이 달라질 수 있는 혈압, 키, 나이 같은것.
상수는 값이 달라질 수 없는 것
- 관측지는 모집단으로 추출된 표본의 수
- 모수(Parameter)
- 전체 집단을 설명하는 진실된 값, 통계는 전수조사를 할 수 없기 때문에 모수와 표본 간의 오차 범위를 예측하는 것
R프로그래밍에서 관측지와 변수
car <- read.table(file ="C:\\Users\\km253\\OneDrive\\바탕 화면\\Rlanguae\\test.txt",
sep=",",
header=TRUE)
head(car)
dim(car)
str(car)
변수
- 측정결과가 조사대상과 다른 값으로 나타날 수 있는 속성 혹은 특성
- 변수는 속성을 수량화할 수 있는지 여부에 따라서 양적변수와 질적변수로 구분
- 변수가 어떠한 값이라도 가질 수 있는지 아니면 특정 수치만 가질 수 있는지에 따라서 연속변수 및 비연속변수로 구분
- 변수들 간의 상호관련성, 즉 인과관계가 있는지에 따라서 독립변수와 종속변수로 구분
독립변수와 종속변수
- 변수는 독립변수와 종속변수로 분류될 수가 있고 독립변수는 원인이 되는 변수로 종속변수에 영향을 주는 변수
- 독립변수(Independent variable)
- 종속변수(Dependent variable)
- 결과변수로 독립변수에 영향을 받아서 결과가 되는 변수
질적변수와 양적변수
- 변수는 데이터의 형태에 따라 질적변수와 양적변수로 분류된다.
질적변수는 수치로 나타낼 수 없는 변수이고 양적변수는 수치로 나타낼 수 있는 변수이다.
- 질적변수는 빈도를 분석하고 양적변수는 평균, 분산 등으로 계산될 수 있다.
- 질적변수
- 수치로 나타낼 수 없는 변수
(예 : 회사명, 직종, 혈액형)
- 양적변수
- 수치로 나타낼 수 있는 변수
(예 : 체중, 온도 등)
이산변수와 연속변수
- 이산변수는 하나하나 셀 수 있는 정수 값을 가지고 있는 변수이고 연속변수는 소수점 이하의 값을 가질 수 있는 변수를 의미한다.
- 이산변수
- 셀 수 있는 정수 값을 가지고 있는 변수
(예 : 학생수, 직원수 등)
- 연속변수
- 연속적인 모든 실수 값을 가질 수 있는 변수
(예 : 길이, 무게, 온도변화 등)
명목변수와 서열변수
- 명목변수는 범주를 구분하기 위해 자료를 서로 다른 범주로 구분해서 수치화하고 서열변수는 자료에 서열을 매기기 위해서 사용되는 변수
- 명목변수(Nominal variable)
- 자료를 서로 다른 범주로 구분하여 각 범주에 수치를 부여한다.
(예 : 1은 남성, 2는 여성으로 부여)
- 서열변수(Ordinal variable)
- 자료에 서열을 부여하기 위해서 수치를 사용
(예 : 1은 만족, 2는 보통, 3은 불만족으로 구분한다.)
등간변수와 비변수(비율변수)
- 등간변수
- 자료를 서열뿐만 아니라 상대적 차이까지 제시한다.
(예 : 온도 20도와 30도의 차이는 10도)
- 비율변수
- 자료를 분류, 서열, 차이와 함께 절대영점까지 표현한다.
(예 : 키 180cm는 90cm * 2배이다.)
표본조사
표본조사
- 표본조사란 모집단의 특성을 나타내는 일부 표본을 추출하기 위해 자료를 수집하는 행위
- 표본조사를 하는 이유는 모집단의 대상이 너무 많기 때문에 현실적으로 모집단을 전수조사하는 것은 불가능
- 모집단을 전수조사 하는 것보다 표본조사가 오히려 오차가 적을 수도 있다.
- 예, 여론조사, 농산물 생산량에 대한 조사 등
확률표집과 비확률표집
- 확률표집
- 단순 무작위표집, 층화표집법, 군집표집법이 있다.
- 수학적인 지침에 의해서 선정되는 표본추출법이다.
- 표좁의 오차를 계산해야 한다.
- 비확률표집
- 수학적으로 계산할 수 없는 경우에 사용되는 표본추출법
- 표본의 오차를 계산할 수가 없다.
- 편의표본추출법, 판단표본추출법, 할당표본추출법이 있다.
표본방법
확률표집
수학적으로 계산이 가능한 경우 사용
① 단순 무작위표집
- 랜덤하게 모수에서 표본을 반복적으로 추출하는 것으로 난수표 및 체계적 표집법을 사용
- 난수표
- 표준 프레임에 일련번호를 부여하고 컴퓨터를 사용해서 난수를 만들고 생성된 난수에 해당하는 개체를 조사
- 체계적 표집법
- 표준프레임에 일련번호를 부여하고 추출 간격을 설정
- 난수에 추출간격을 더해서 추출하는 방법
② 층화표집법
- 모집단을 기준에 따라서 소집단으로 분류하고 각 소집단으로부터 무작위로 표본을 추출하는 방법
- 모집단에 대한 특성을 이해해야 하며, 소집단 구분에 많은 비용과 노력이 발생
- 발생비율이 낮은 소집단은 해당 표본을 찾기 어렵다.
③ 군집표집법
- 모집단을 특정 군집으로 분류하고 군집 중 일부를 선택해서 군집의 모든 구성원을 전수조사하는 방법
- 장점
- 단점
- 선출된 군집의 수가 적거나 군집내의 개체들이 지나치게 동질성을 가지면 모집단을 충분히 반영할 수 없다.
비확률표집
수학적으로 계산할 수 없는 경우 사용
① 편의표본추출법
- 가장 간단한 형태로 임의의 선정지역, 조사시간 등을 정의해 표본을 선택
- 표본추출 비용이 거의 발생하지 않고 조사가 아주 간단함
- 추출된 표본이 모집단을 대표하지 않음
- 응답거부자의 특성이 반영되지 않음
② 판단표본추출법
- 모집단의 의견을 반영할 수 있을 것이라고 판단될 때 사용
- 조사문제에 대해 잘 알고 있을 경우 사용
- 적은 비용으로 의미 있는 자료를 수집할 수 있는 장점
- 모집단의 성격을 대표하지 못할 수도 있음
③ 할당표본추출법
- 사전에 정해놓은 분류기준에 의해 집단을 소집단으로 분류하고 집단별 대상을 선정
- 가장 널리 사용되는 방법으로 모집단의 특성이 잘 반영되도록 특성별로 비례해서 표본을 추출한다.
- 마케팅 조사, 연령별, 성별 설문조사 등에 사용