데이터 탐색
탐색적 데이터 분석(EDA: Exploratory Data Analysis)
데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통계값과 분포 등을 시각화하고 분석하는 것
결측값
존재하지 않는 데이터(NA)
환경에 따라 null, 공백, -1 등 다양한 값을 가질 수 있음
결측값을 처리하기 위한 R 패키지로 Amelia(missmap), DMwR2가 있다.
결측값 대치 방법
단순 대치법
- 결측값이 존재하는 데이터를 삭제하는 방법
- 결측값이 많은 경우 대량의 데이터 손실 발생 위험
- complete.cases -> 하나의 열에 결측값 존재시 FALSE, 없을 경우 TRUE 반환
평균 대치법
- 평균 혹은 중앙값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만드는 방법
- 비조건부 평균 대치법: 데이터의 평균값으로 결측값을 대치
- 조건부 평균 대치법: 실제 값들을 분석해 회귀분석을 활용하는 대치 방법
- DMwR2 패키지의 central Imputation 함수를 사용
단순 확률 대치법
- 평균 대치법에서 추정량 표준 오차의 과소 추정문제를 보완
- K-Nearest Neighbor(K-NN)
- K 최근접 이웃 알고리즘으로 주변 K개의 데이터 중 가장 빈번한 데이터로 대치하는 방법
- K값에 따라 대치되는 값의 결정이 달라짐. 적절한 K 값을 선정하는 것이 매우 어려움
추정량 표준 오차의 과소 추정 문제: 평균 대치법으로 결측값 대치 시 n번을 수행해도 고정값을 가진다 -> 결측값이 오차가 없다고 간주하게 되는 문제
다중 대치법
- 여러 번의 대치를 통해 n개의 임의 완전자료를 만드는 방법
- 결측값 대치, 분석, 결합의 세 단계로 구성
이상값
다른 데이터와 비교했을 때 극단적으로 작거나 큰 값
입력자의 실수, 응답자의 악의적인 의도 등의 원인이 있을 수 있음.
결측값과 이상값은 제거하는 것이 일반적이지만 어느 상황에서는 의미가 있을 수도 있다. 적절한 판단이 필요.
이상값 판단
**ESD(Extreme Studentized Deviation)
- 평균으로부터 표준편차 3만큼 떨어진 값들을 이상값으로 인식하는 방법
- 정규분포에서 전체 데이터의 0.3%를 이상값으로 구분한다
사분위수
사분위수: 측정값을 최솟값에서 최댓값까지 오름차순으로 정렬하고 이를 4등분했을 때 각 등분 위치에 해당하는 값. 최솟값-Q1(25%)-Q2(50%)-Q3(75%)-최댓값 순으로 명명
- 가장 작은 하한 사분위수(25%)와 가장 큰 상한 사분위수(75%)를 이용해 이상치를 판단하는 방법
- 사분범위(IQR: Interquartile Range): Q1(25%), Q3(75%) 사이의 값
- 보통 사분범위에서 1.5분위수를 벗어나는 경우 이상치로 판단함
- Q1-1.5*IQR(하한최소값)보다 작거나 Q3+1.5*IQR(상한최소값)보다 큰 값을 이상값으로 간주한다
통계 이해하기
통계
분석하고자 하는 집단에 대해 조사하거나 실험을 통해 얻는 자료나 이를 요약한 형태
통계학: 불확실한 상황에서의 효과적인 의사결정을 돕도록 수치자료를 수집하고 가공하고 분석하는 이론과 방법을 연구하는 학문
통계분석: 특정 집단을 대상으로 자료를 수집하고 정보를 구하여 적절한 통계분석 방법으로 의사결정(통계적 추론)을 하는 과정
표본조사
관심 대상의 모집단에 관한 정보를 얻기 위한 의도로 개별적 관측을 선택하는 통계적 수행의 일부이며 또한 가설검증의 일부
표본의 대표성: 선별한 표본집단은 모집단의 특성을 잘 대표할 수 있어야 한다
표본의 대표성을 신뢰할 수 있어야 통계분석 결과도 신뢰할 수 있다
표본추출 방법
단순 랜덤 추출법
- N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법
계통 추출법
- 모집단의 원소에 차례대로 번호를 부여한 후 일정 간격을 두고 데이터를 추출하는 방법
- N개의 모집단을 K개씩 n개의 구간으로 나눈 후, 첫 구간에서 하나를 임의로 선택하고 K개씩 띄어서 표본을 추출함
집락(군집) 추출법
- 데이터를 여러 집락으로 구분한 후 단순 랜덤 추출법에 의해 선택된 집락의 데이터를 표본으로 사용하는 방법
- 각 집락은 서로 동질적이며 집락 내 데이터는 서로 이질적이다
층화 추출법
- 데이터를 여러 집락으로 구분하되, 각 집락은 서로 이질적이며, 군집 내 데이터들은 서로 동질적인 특성을 갖는 추출 방법.
- 집락을 나누고 각 집락에서 필요한 수의 데이터를 추출하여 추출 데이터에 대해 표본조사를 진행한다
- 집락별로 추출되는 데이터의 비율에 따라 비례 층화 추출법과 불비례 층화 추출법으로 구분됨
- 비례 층화 추출법: 전체 데이터의 분포를 반영하여 각 군집별 데이터를 추출하는 방법
- 불비례 층화 추출법: 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 개수의 데이터를 추출하는 방법
| 하나의 집락 내의 관계 | 집락 간의 관계 |
|---|
| 집락 추출법 | 이질적 | 동질적 |
| 층화 추출법 | 동질적 | 이질적 |
복원 추출/비복원 추출
복원 추출: 표본으로 뽑힌 데이터가 다시 모집단에 포함되어 추출될 수 있음
비복원 추출: 한 번 뽑힌 데이터는 모집단에서 제외(계통 추출법 등)
단순 랜덤 추출법, 집락 추출법, 층화 추출법에서는 복원/비복원 여부가 중요한 결정 요소 중 하나가 된다
측정과 척도
측정: 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것
척도: 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구
| 대분류 | | 특징 | 예시 | 포함 정보 |
|---|
| 질적 척도 | 명목척도 | 측정 대상이 어느 집단에 속하는 지 나타내는 자료 | 성별, 지역 등 | 범주 |
| 순서척도(서열척도) | 측정 대상이 명목척도이면서 서열 관계를 갖는 자료 | 선호도, 신용도, 학년 등 | 범주, 순서 |
| 양적 척도 | 구간척도(등간척도) | 측정 대상이 가지고 있는 속성의 양을 측정할 수 있고, 두 구간 사이에 의미가 있는 자료 | 온도, 지수 등 | 범주, 순서, 상대적 크기 |
| 비율척도 | 측정 대상이 구간척도이면서 절대적 기준 0이 존재하여 사칙연산이 가능한 자료 | 키, 무게, 점수 등 | 범주, 순서, 상대적 크기, 절대적 크기 |
기술통계와 추리통계
기술통계
- 표본 자체의 속성이나 특징을 파악하는 데 중점을 두는 데이터 분석 통계
- 자료 요약, 조직화, 단순화가 목적
- 기술 통계량: 데이터의 최솟값, 최댓값, 중위수 등의 통계량 -> 모집단의 특성 유추에 사용
추리통계(추론통계)
- 수집한 데이터를 바탕으로 추론과 예측을 하는 통계 기법
- 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법
- 모집단 특성을 추정하는 데 초점, 가설을 검증하거나 확률적 가능성을 파악. 예측에 사용
확률, 확률분포
확률: 발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정 사건 A가 발생할 수 있는 비율을 나타내는 값. 0에서 1사이. 모든 확률의 합은 1
조건부 확률: 특정 사건 A가 발생한 것이 사실이라는 전제 하에 또 다른 사건 B가 발생할 확률을 나타낸 값. 0과 1사이.
- 확률변수: 무작위 실험을 했을 때 특정 확률로 발생하는 각 결과를 수치적 값으로 표현하는 변수
- 확률분포: 확률변수의 모든 값과 그에 대응하는 확률의 분포를 나타낸 것
- 확률함수: 확률변수에 의해 정의된 실수를 확률에 대응시키는 함수
- 확률질량함수: 이산확률분포의 확률함수
- 확률밀도함수: 연속확률분포의 확률함수
이산확률분포(Discrete Probability Distribution)
- 이산 확률 변수가 가지는 확률 분포
- 확률 변수가 가질 수 있는 값의 개수를 셀 수 있음
- 확률 질량 함수를 통하여 표현가능하며, 누적 분포 함수로 표현할 경우 그 함수는 비약적 불연속으로만 증가함
- 대표적으로 베르누이 분포, 이항 분포, 포아송 분포 등이 있음
- 이산확률변수: 이산확률변수는 확률 변수가 가질 수 있는 값이 이산값인 확률변수(셀 수 있음, 연속적이지 않다). 서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합이다
베르누이 분포
- 확률변수 X가 취할 수 있는 값이 두 개인 경우
- 한 번의 시행의 결과를 성공과 실패(0과 1)로 나눌 수 있는데, 성공할 확률이 p인 분포
이항 분포
- n번의 베르누이 시행에서 k번 성공할 확률의 분포
다항 분포
- n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포
기하 분포
- 성공확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포
포아송 분포
- 단위시간 or 단위공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률 분포
연속확률분포(Continuous Probability Distribution)
- 연속적인 값을 가지는 분포
- 특정 값의 확률이 아닌, 특정 구간(범위)내의 확률을 계산
- 대표적으로 정규분포, 균등분포, 지수분포 등이 있음
- 연속확률변수: 확률변수가 취할 수 있는 값이 어떤 특정 구간 전체에 해당해 수를 셀 수 없는 변수
균일분포
- 연속형 확률변수 X가 취할 수 있는 모든 값에 대해 같은 확률을 갖고 있는 분포
- 그래프 아래 면적의 넓이는 확률의 총합인 1
정규분포
- 평균이 μ, 표준편차가 σ인 분포
- 분포의 모양이 평균값에 가장 몰려있고, 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프
- 표준정규분포: 평균이 0, 표준편차가 1인 정규분포
- 표준화: 정규분포를 따르는 확률변수를 표준정규분포를 따르는 확률변수로 변환하는 작업
t-분포
- 정규분포와 비슷하지만, 표본의 크기가 작은 경우에 신뢰할 수 있도록 보정된 확률분포
- 데이터의 분포가 정규성을 띨 때 사용
- 표본 크기가 작을 때, 표본의 평균과 표준편차가 모집단을 정확히 반영하지 못하는 경우에 사용되는 분포
- 자유도(degrees of freedom, df)에 따라 모양이 달라짐. 자유도가 커질수록 표준정규분포에 가까워짐
- 표본 크기가 커지면 t-분포는 정규분포에 수렴-> 표본이 많아지면 정규분포처럼 행동하게 됨
자유도: 표본자료들이 모집단에 대한 정보를 주는 독립적인 자료의 개수
카이제곱 분포
- 데이터의 변동성을 분석하는 데 사용되는 확률 분포
- 정규분포를 따르는 표본들의 제곱합을 따름. 표준 정규분포 Z를 제곱한 값들의 합이 따르는 분포
- 표본의 분산이 모집단의 분산과 얼마나 차이가 나는지를 평가할 때 사용
- 독립성 검정, 적합도 검정, 분산 분석 및 회귀 분석의 일부 단계에서 사용됨
- 자유도에 따라 모양이 달라진다. 자유도가 작을수록 비대칭성이 커지고, 정규분포에 가까워짐.
- 음수 값이 나올 수 없음.
F 분포
- 두 개의 카이제곱(χ²) 분포를 각각 자유도(df)로 나누고, 그 비율을 계산한 값이 따르는 분포
- 두 개 집단의 분산을 비교하는 데 사용
- 등분산 검정, 분산분석 등을 위해 사용됨
통계 기초 개념
기댓값
- 특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 값의 평균
- 확률변수 X 값과 X의 발생할 확률의 곱들의 합
- 기대 관측값에 대한 평균
분산
- 데이터들이 중심에서 얼마나 떨어져있는지 알 수 있는 측도
- 관측값-평균 의 제곱을 모두 더하고 전체 개수로 나눈 값
- 확률변수의 분산: 확률변수가 취할 수 있는 값들이 모평균(중심)에서 얼마나 떨어져있는지를 측정하는 측도. 미래에 측정, 관측될 수 있는 값들에 대한 측도
표준편차
- 자료의 산포도를 나타내는 수치
- 분산의 양의 제곱근
- 클수록 기댓값과는 멀어지는 값
첨도
- 확률분포의 뾰족한 정도를 나타내는 측도
- 3에 가까울수록 정규분포 모양을 가짐
왜도
- 확률분포의 비대칭 정도를 나타내는 측도
- 왜도값이 0이면 정규분포와 유사한 모습. 평균==중앙값==최빈값
- 왜도값 < 0인 경우, 왼쪽으로 꼬리가 긴 형태의 그래프. 평균<중앙값<최빈값
- 왜도값 > 0인 경우, 오른쪽으로 꼬리가 긴 형태의 그래프. 최빈값<중앙값<평균
공분산
- 두 확률변수 X, Y의 상관 정도를 나타내는 값
- 공분산이 양수 -> X증가시 Y도 증가
- 공분산이 음수 -> X감소시 Y 감소
- 공분산 값만 보고 선형성이 강한지(즉, 얼마나 강한 상관관계를 갖는지)는 알 수 없다
- 공분산 값은 단위에 의존적이다(키(cm)와 몸무게(kg)의 공분산 값과 키(cm)와 몸무게(g)의 공분산 값은 다를 수밖에 없음)
- 공분산값이 양수/음수 일 때 경향성을 따질 수는 있지만 얼마나 강한 상관관계인지를 정확히 측정할 수는 없음
- 두 변수의 데이터 분포에 따라 공분산이 다르게 측정될 수 있기 때문에
- 이런걸 알고싶다면 공분산 대신 상관계수를 사용하면 알 수 있다
상관계수
- -1과 1사이의 값을 가짐
- 공분산을 두 변수의 표준편차로 나눈 값
- 단위에 영향을 받지 않음(공분산과 달리). 단위를 표준화한 값
- 공분산을 표준화하여 두 변수의 선형 관계를 정확히 측정할 수 있다
추정과 가설검정
추정
모수의 추정
- 모수: 모평균, 모분산 등 모집단의 확률분포 및 특성을 알 수 있는 값
- 표본조사를 실시하여 모수를 측정함
점추정
- 모집단의 모수를(특히 모평균) 추정 시 모평균을 하나의 특정한 값이라고 예측하는 것
- 불편추정량: 표본평균(표본집단의 평균값). 모수 추정시의 추정값과 실제 모수 값의 차이의 기댓값이 0인 값. 편향되지 않은 값으로 모수 추정에 이상적인 값.
- 불편추정량 중 최소의 분산을 가진 값이 추정량이 가장 좋은 추정량
구간추정
- 모수가 특정 구간안에 존재할 것이라 예상하는 것
- 신뢰도: 모수가 특정 구간 안에 포함될 확률. 보통 95%, 99% 사용
가설검정
통계적 가설검정
- 모집단에 특성에 대한 주장 또는 가설을 세운 뒤, 표본에서 얻은 정보로 가설의 정당성을 판정하는 과정
귀무가설
- 모집단이 어느 특징을 가질 것이라 여기는 가설
- 일반적으로 '차이가 없음', '-일 것이다'로 표현 가능
- 실험, 연구를 통해 기각하고자 하는 가설. 대립가설과 상반됨
- 귀무가설의 기각으로 입증하고자 하는 주장을 관철할 수 있음
대립가설
- 귀무가설에 반대되는 가설. 귀무가설이 틀렸다고 판단할 수 있는 가설.
- 실험, 연구를 통해 증명코자 하는 새로운 아이디어나 가설
제 1종 오류
귀무가설이 사실인데 귀무가설이 틀렸다고 결정하는 오류
제 2종 오류
귀무가설이 사실이 아닌데 귀무가설이 옳다고 결정하는 오류
검정통계량
- 귀무가설의 채택 여부를 판단하기 위해 표본조사를 실시했을 때, 특정 수식에 의해 표본들로부터 얻을 수 있는 값
- 귀무가설의 옳고 그름을 판단할 수 있는 값
기각역
- 귀무가설을 기각하게 될 검정통계량의 영역
- 검정통계량이 기각역 내에 있다->귀무가설 기각
- 임계값: 기각역의 경계값
유의수준
- 제 1종 오류를 범할 확률의 최대 허용 한계
- 1%(0.01), 5%(0,05)를 주로 사용, 가설검증 수행 환경에 맞게 조절 가능
- 제 1종 오류를 허용할 수 있는 '최대 확률 유의수준'을 설정해 가설검증 수행
- 귀무가설이 사실일 때 이를 기각하는 확률. 제 1종 오류가 발생할 수 있는 최대확률
유의확률
- p-value
- 귀무가설을 지지하는 정도를 나타낸 확률값. 검정통계량으로부터 얻는 값
- 귀무가설을 기각할 때 그게 잘못된 결정일 확률
- p-value<유의수준 -> 귀무가설 기각, 대립가설 채택
비모수 검정
모수 검정
- 표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법
- 표본의 정규성이 반드시 확보되어야 함
- 데이터가 정규분포 등 특정한 분포를 따른다고 가정
- 평균, 분산 등의 모집단 특성을 직접 추정하여 비교
비모수 검정
- 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 소규모실험 환경에서 정규분포임을 가정할 수 없는 경우에 사용함
- 순위합검정: 자료를 크기순 배열해 순위를 매기고, 순위의 합을 통해 차이를 비교->모수의 특성을 이용하지 않음
- 모수의 분포에 따라 어떠한 가정(정규분포)도 하지 않는 방법
모수 검정과 비모수 검정의 차이
| 모수 검정 (Parametric Test) | 비모수 검정 (Non-Parametric Test) |
|---|
| 모집단 분포 가정 | 필요함 (예: 정규분포) | 필요 없음 |
| 데이터 유형 | 연속형 (평균, 분산 활용) | 순위 데이터도 가능 |
| 검정 방식 | 평균 비교 | 순위/중앙값 비교 |
| 표본 크기 | 커야 신뢰성 ↑ (보통 30개 이상) | 작아도 가능 |
| 속도 | 계산 속도 빠름 | 속도 느림 (순위 계산) |
| 대표 검정법 | t-검정, ANOVA, 회귀 분석 | 윌콕슨 검정, 크루스칼-왈리스 검정, 카이제곱 검정 |