ADsP - 통계분석

이강민·2022년 10월 5일
0

ADsP

목록 보기
9/19
post-thumbnail

자료분석

자료분석

  • 자료분석은 데이터에서 변수와 관측치를 확인한다. 또한 모수(전체)를 대상으로 분석할 수가 없으므로 표본을 추출하여 자료를 분석한다.
  • 해당분야의 관련지식과 통계지식을 사용해서 최선의 의사결정을 하기위해 자료를 정리하고 분석하는 활동
  • 자료분석을 위해서 변수와 상수를 사용, 변수는 값이 달라질 수 있는 혈압, 키, 나이 같은것.
    상수는 값이 달라질 수 없는 것
  • 관측지는 모집단으로 추출된 표본의 수
  • 모수(Parameter)
    • 전체 집단을 설명하는 진실된 값, 통계는 전수조사를 할 수 없기 때문에 모수와 표본 간의 오차 범위를 예측하는 것

R프로그래밍에서 관측지와 변수

car <- read.table(file ="C:\\Users\\km253\\OneDrive\\바탕 화면\\Rlanguae\\test.txt", 
                  sep=",",
                  header=TRUE)
head(car) #상위 6개의 데이터를 조회해서 화면에 출력

dim(car) # 관측지와 변수를 확인할 수 있다.

str(car) # 데이터 타입과 리스트를 알 수 있다.

변수

  • 측정결과가 조사대상과 다른 값으로 나타날 수 있는 속성 혹은 특성
  • 변수는 속성을 수량화할 수 있는지 여부에 따라서 양적변수와 질적변수로 구분
  • 변수가 어떠한 값이라도 가질 수 있는지 아니면 특정 수치만 가질 수 있는지에 따라서 연속변수 및 비연속변수로 구분
  • 변수들 간의 상호관련성, 즉 인과관계가 있는지에 따라서 독립변수와 종속변수로 구분

독립변수와 종속변수

  • 변수는 독립변수와 종속변수로 분류될 수가 있고 독립변수는 원인이 되는 변수로 종속변수에 영향을 주는 변수
  • 독립변수(Independent variable)
    • 설명변수로 원인이 되는 변수
  • 종속변수(Dependent variable)
    • 결과변수로 독립변수에 영향을 받아서 결과가 되는 변수

질적변수와 양적변수

  • 변수는 데이터의 형태에 따라 질적변수와 양적변수로 분류된다.
    질적변수는 수치로 나타낼 수 없는 변수이고 양적변수는 수치로 나타낼 수 있는 변수이다.
  • 질적변수는 빈도를 분석하고 양적변수는 평균, 분산 등으로 계산될 수 있다.
  • 질적변수
    • 수치로 나타낼 수 없는 변수
      (예 : 회사명, 직종, 혈액형)
  • 양적변수
    • 수치로 나타낼 수 있는 변수
      (예 : 체중, 온도 등)

이산변수와 연속변수

  • 이산변수는 하나하나 셀 수 있는 정수 값을 가지고 있는 변수이고 연속변수는 소수점 이하의 값을 가질 수 있는 변수를 의미한다.
  • 이산변수
    • 셀 수 있는 정수 값을 가지고 있는 변수
      (예 : 학생수, 직원수 등)
  • 연속변수
    • 연속적인 모든 실수 값을 가질 수 있는 변수
      (예 : 길이, 무게, 온도변화 등)

명목변수와 서열변수

  • 명목변수는 범주를 구분하기 위해 자료를 서로 다른 범주로 구분해서 수치화하고 서열변수는 자료에 서열을 매기기 위해서 사용되는 변수
  • 명목변수(Nominal variable)
    • 자료를 서로 다른 범주로 구분하여 각 범주에 수치를 부여한다.
      (예 : 1은 남성, 2는 여성으로 부여)
  • 서열변수(Ordinal variable)
    • 자료에 서열을 부여하기 위해서 수치를 사용
      (예 : 1은 만족, 2는 보통, 3은 불만족으로 구분한다.)

등간변수와 비변수(비율변수)

  • 등간변수
    • 자료를 서열뿐만 아니라 상대적 차이까지 제시한다.
      (예 : 온도 20도와 30도의 차이는 10도)
  • 비율변수
    • 자료를 분류, 서열, 차이와 함께 절대영점까지 표현한다.
      (예 : 키 180cm는 90cm * 2배이다.)

표본조사

표본조사

  • 표본조사란 모집단의 특성을 나타내는 일부 표본을 추출하기 위해 자료를 수집하는 행위
  • 표본조사를 하는 이유는 모집단의 대상이 너무 많기 때문에 현실적으로 모집단을 전수조사하는 것은 불가능
  • 모집단을 전수조사 하는 것보다 표본조사가 오히려 오차가 적을 수도 있다.
  • 예, 여론조사, 농산물 생산량에 대한 조사 등

확률표집과 비확률표집

  • 확률표집
    • 단순 무작위표집, 층화표집법, 군집표집법이 있다.
    • 수학적인 지침에 의해서 선정되는 표본추출법이다.
    • 표좁의 오차를 계산해야 한다.
  • 비확률표집
    • 수학적으로 계산할 수 없는 경우에 사용되는 표본추출법
    • 표본의 오차를 계산할 수가 없다.
    • 편의표본추출법, 판단표본추출법, 할당표본추출법이 있다.

표본방법

확률표집

수학적으로 계산이 가능한 경우 사용

① 단순 무작위표집

  • 랜덤하게 모수에서 표본을 반복적으로 추출하는 것으로 난수표 및 체계적 표집법을 사용
  • 난수표
    • 표준 프레임에 일련번호를 부여하고 컴퓨터를 사용해서 난수를 만들고 생성된 난수에 해당하는 개체를 조사
  • 체계적 표집법
    • 표준프레임에 일련번호를 부여하고 추출 간격을 설정
    • 난수에 추출간격을 더해서 추출하는 방법

② 층화표집법

  • 모집단을 기준에 따라서 소집단으로 분류하고 각 소집단으로부터 무작위로 표본을 추출하는 방법
  • 모집단에 대한 특성을 이해해야 하며, 소집단 구분에 많은 비용과 노력이 발생
  • 발생비율이 낮은 소집단은 해당 표본을 찾기 어렵다.

③ 군집표집법

  • 모집단을 특정 군집으로 분류하고 군집 중 일부를 선택해서 군집의 모든 구성원을 전수조사하는 방법
  • 장점
    • 조사에 소요되는 시간 및 비용이 줄어든다.
  • 단점
    • 선출된 군집의 수가 적거나 군집내의 개체들이 지나치게 동질성을 가지면 모집단을 충분히 반영할 수 없다.

비확률표집

수학적으로 계산할 수 없는 경우 사용

① 편의표본추출법

  • 가장 간단한 형태로 임의의 선정지역, 조사시간 등을 정의해 표본을 선택
  • 표본추출 비용이 거의 발생하지 않고 조사가 아주 간단함
  • 추출된 표본이 모집단을 대표하지 않음
  • 응답거부자의 특성이 반영되지 않음

② 판단표본추출법

  • 모집단의 의견을 반영할 수 있을 것이라고 판단될 때 사용
  • 조사문제에 대해 잘 알고 있을 경우 사용
  • 적은 비용으로 의미 있는 자료를 수집할 수 있는 장점
  • 모집단의 성격을 대표하지 못할 수도 있음

③ 할당표본추출법

  • 사전에 정해놓은 분류기준에 의해 집단을 소집단으로 분류하고 집단별 대상을 선정
  • 가장 널리 사용되는 방법으로 모집단의 특성이 잘 반영되도록 특성별로 비례해서 표본을 추출한다.
  • 마케팅 조사, 연령별, 성별 설문조사 등에 사용
profile
NullpointException

0개의 댓글