통계의 정의와 자료 획득 방법을 알아보고, 통계분석과 통계분석 방법을 알아보자.
확률 및 확률분포를 알고, 추정과 가절검정을 알아보자.
통계
간단한 테이블
또는 그래프
에서 아주 복잡한 분석 결과
까지 형태는 다양통계자료 획득 방법
총조사
샘플링 조사
통계분석의 방법
기술통계
통계적 추론
추정
표본
으로부터 모집단이 가지는 특성(모수)
를 추측
하는 것가설검정
이론적 대안
이 통계적으로 의미
가 있는지를 확인하는 것조사
나 실험
을 통해 나온 결과
에 대한 요약된 형태
조사
또는 실험
을 통해 데이터 확보
, 조사 대상
에 따라 총조사(census)
와 표본조사
로 구분총 조사/전수 조사(Census)
집단 모두
를 조사하는데 많은 비용
과 시간
이 소요되므로 특별한 경우를 제외하곤 사용X표본조사
모집단
에서 샘플을 추출
하여 진행모집단(Population)
: 조사하고자 하는 대상 집단 전체
원소(Element)
: 모집단을 구성
하는 개체
표본(Sample)
: 조사하기 위해 추출한 모집단의 일부 원소
모수(Parameter)
: 표본 관측에 의해 구하고자 하는 모집단에 대한 정보(모집단의 특성)
모집단의 정의
, 표본 크기
, 조사 방법
, 조사기간
, 표본추출방법
을 정확히 명시해야 함*표본오차
: 모집단
의 일부인 표본
에서 얻은 자료를 통해 모집단 전체의 특성을 추론
함으로써 생기는 오차
.
-> 모집단을 대표할 수 있는 표본단위
들이 조사대상으로 추출되지 못하면 발생
*비표본오차
: 표본오차를 제외
한 조사의 전체 과정에서 발생할 수 있는 모든 오차
*표본편의
: 표본추출방법
에서 기인하는 오차
.
-> 표본추출이 의도된 모집단의 일부 구성원
이 다른 구성원
보다 더 낮거나 더 높은
표본 추출 확률
을 갖는 오차
표본 추출 방법
표본조사
의 중요한 점은 모집단을 대표
할 수 있는 표본추출
표본 추출 방법
에 따라 분석결과의 해석
은 큰 차이 발생
(N개의 모집단
에서 n개의 표본
을 추출하는 경우)
단순랜덤 추출법(Simple Random Sampling)
임의의 n개를 추출
하는 방법선택될 확률이 동일
비복원
, 복원
(추출한 원소를 다시 집어넣어 추출하는 경우)추출계통추출법(Systematic Sampling)
단순랜덤추출법
의 변형된 방식나열
하여 K개씩 (K=N/n) n개의 구간
으로 나누고
첫 구간(1, 2, ... , K)
에서 하나를 임의로 선택한 후에 K개씩 띄어서 n개의 표본 선택
집락추출법(Cluster Random Sampling)
군집
을 구분하고 군집별로 단순랜덤 추출법
을 수행한 후, 모든 자료를 활용/샘플링
하는 방법지역표본추출
, 다단계표본추출
층화추출법(Stratified Random Sampling)
각 계층을 고루 대표할 수 있도록 표본을 추출
하는 방법유사한 원소
끼리 몇 개의 층(Stratum)
으로 나누어 각 층에서 랜덤 추출
비례층화추출법
, 불비례층화추출법
*실험
: 특정 목적 하에서 실험 대상
에게 처리
를 가한 후, 그 결과
를 관측
해 자료를 수집하는 방법
측정(Measurement)
표본조사
나 실험
을 실시하는 과정에서 추출된 원소
들이나 실험 단위
로부터 주어진 목적
에 적합
하도록 관측
해 자료를 얻는 것측정방법
서열척도
는 명목척도
와 달리 매겨진 숫자의 크기
를 의미있게 활용
가능구간척도
는 절대적 크기
를 측정할 수 없기
때문에 사칙연산
중 더하기/빼기
는 가능하나 비율처럼 곱하기/나누기
는 불가능집단
이나 불확실한 현상
을 대상으로 자료를 수집해 대상 집단에 대한 정보
를 구하고, 적절한 통계분석 방법을 이용해 의사결정
을 하는 과정기술통계(Descriptive Statistic)
: 주어진 자료로부터 어떠한 판단
이나 예측
과 같은 주관이 섞일 수 있는 과정을 배제
하여 통계집단
들의 여러 특성
을 수량화
하여 객관적인 데이터
로 나타내는 통계분석 방법론
Sample
에 대한 특성인 평균
, 표준편차
, 중위수
, 최빈값
, 그래프
,왜도
, 첨도
등을 구하는 것통계적 추론(추측통계, Inference Statistics)
: 수집된 자료를 이용해 대상 집단(모집단)
에 대한 의사결정
을 하는 것
Sample
을 통해 모집단을 추정
하는 것모수추정
: 표본집단
으로부터 모집단의 특성
인 모수(평균/분산 등)
를 분석
하여 모집단 추론
가설검정
: 대상집단에 대해 특정한 가설
을 설정한 후, 그 가설이 옳은지 그른지에 대한 채택여부
를 결정하는 방법론
예측
: 미래
의 불확실성을 해결
해 효율적인 의사결정
을 하기 위해 활용
ex) 회귀분석
, 시계열분석
등
확률
표본공간 S
에 부분집합
인 각 사상
에 대해 실수값을 가지는 함수의 확률값
이 0과 1
사이에 있고, 전체 확률
의 합이 1
인 것표본공간 Ω
의 부분집합인 사건 E
의 확률은 표본공간 원소의 개수
에 대한 사건 E의 개수 비율
로 확률
을 P(E)
라고 할 때, 아래로 정의표본공간(Sample Space, Ω)
: 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합
사건(Event)
: 관찰자
가 관심이 있는 사건
으로 표본공간
의 부분집합
원소(Element)
: 나타날 수 있는 개별의 결과
확률변수(Random Variable)
: 특정값
이 나타날 가능성이 확률적
으로 주어지는 변수
정의역(Domain)
이 표본공간
, 치역(Range)
이 실수값(0<y<1)
인 함수
0이 아닌
확률을 갖는 실수값의 형태에 따라 이산형 확률변수
와 연속형 확률변수
로 구분
확률변수X의 기대값(Expectation, Expected Value)
: 실험을 반복했을 때 평균적으로 기대할 수 있는 값
확률변수 X의 k차 적률(k-th Moment)
확률변수 X의 k차 중심적률(k-th Cental Moment)
2차 중심적률 E [(X-𝜇)^2]=𝜎^2 : 모분산(Population Variance)
기대값의 선형성 이용
-> 즉, 모분산=2차적률-1차적률^2
로 해석
덧셈정리(배반사건X)
: 사건A
와 사건B
가 동시에 일어날 수 있을 때(교집합이 성립할 때)
,
일어날 확률P(A 또는 B)
: P(AUB)=P(A)+P(B)-P(A∩B)
=> 사건B가 주어졌을 때 사건A의 조건부 확률
: P(A|B)=P(A∩B)/P(B)
덧셈정리(배반사건O)
: 사건A
와 사건B
가 동시에 일어나지 않을 때
,
즉 사건A 또는 사건 B
중 어느 한 쪽만 일어날 확률
: P(AUB)=P(A)+P(B)
곱셈정리
: 사건A
와 B
가 서로 무관계하게 나타날 때
, 즉 독립사건
일 때
사건A와 B가 동시에 나타날 확률 P(A와B)
: P(A∩B)=P(A)XP(B)
=> 사건B가 주어졌을 때 사건A의 조건부 확률
: P(A|B)=P(A)
확률분포
이산형 확률변수
0이 아닌 확률값
을 갖는 확률 변수
를 셀 수 있는 경우
(확률질량함수)
베르누이 확률분포(Bernoulli Distribution)
: 결과
가 2개
만 나오는 경우
ex) 동전 던지기, 시험의 합격/불합격 등
메이저리거 추신수 선수가 안타를 칠 확률
은 베르누이 분포를 따름
(안타를 치는 사건을 x=1, 안타를 칠 확률은 타율로 적용 가능
이항분포(Binomial Distribution)
: 베르누이 시행
을 n번 반복
했을 때 k번 성공할 확률
ex) 메이저리거 추신수 선수가 오늘 경기에서 5번
타석에 들어와서 3번
안타를 칠 확률은 이항분포를 따른다.
(n=5, k=3, 안타를 칠 확률 P(x)=타율로 적용 가능
)
성공할 확률 p
가 0이나 1에
가깝지 않고
n이 충분히 크면
이항분포
는 정규분포
에 가까워짐
성공할 확률 P
가 1/2
에 가까우면 종모양
기하분포(Geometric Distribution)
: 성공확률
이 p
인 베르누이 시행
에서 첫 번째 성공
이 있기 까지 x번 실패할 확률
ex) 메이저리거 추신수 선수가 오늘 경기에서 5번 타석
에 들어와서 3번째
타석에서 안타칠 확률은 기하분포
를 따름
다항분포(Multinomial Distribution)
: 이항분포
를 확장
한 것으로,
세 가지 이상의 결과
를 가지는 반복 시행
에서 발생하는 확률 분포
포아송분포(Poisson Distribution)
시간과 공간
내에서 발생하는 사건의 발생 횟수
에 대한 확률분포5page
당 10개
씩 나온다고 할 때, 한
페이지에 오타가 3개
나올 확률최근 5경기
에서 10개의 홈런
을 쳤을 때, 오늘 경기에서 홈런을 못 칠 확률
은 포아송분포
를 따름연속형 확률변수
가능한 값
이 실수의 어느 특정구간 전체
에 해당하는 확률변수(확률밀도함수
)균일분포(일양분포, Uniform Distribution)
모든 확률변수 X
가 균일한 확률
을 가지는 확률분포정규분포(Normal Distribution)
평균
이 𝜇
이고, 표준편차
가 𝜎
인 x
의 확률밀도함수표준편차
가 클
경우 퍼져보이는 그래프
가 나타남*최소-최대 정규화(Min-Max Normalization)
: (X-Min)/(Max-Min)
, 원 데이터의 분포를 유지
하면서 0~1 사이 값
이 되도록 정규화
함
*Z-점수 표준화(Z-Score Standardization)
: (X-평균)/표준편차
, 원 데이터를 표준정규분포
에 해당되도록 표준화
*표준정규분포
: 평균이 0
이고 표준편차가 1
인 정규분포
-정규분포
를 표준정규분포
로 만들기 위해선 Z=(X-µ)/𝜎
(Z-점수 표준화
)식 이용
지수분포(Exponential Distribution)
어떤 사건
이 발생할 때
까지 경과 시간
에 대한 연속확률분포
t-분포(t-Distribution)
표준정규분포
와 같이 평균이 0
을 중심으로 좌우가 동일한 분포
표본의 크기
가 적을 때
: 표준정규분포
를 위에서 눌러놓은 것
표본이 커져서(30개 이상)
: 자유도가 증가
하면 표준정규분포
와 거의 같은
분포 데이터
가 연속형
일 경우 활용두 집단
의 평균이 동일
한지 알고자 할 때 검정통계량
으로 활용χ2-분포(카이제곱분포/Chi-Square Distribution)
: 모평균
과 모분산
이 알려지지 않은 모집단
의 모분산
에 대한 가설검정에 사용되는 분포
두 집단 간
의 동질성 검정
에 활용범주형 자료
에 대해 얻어진 관측값
과 기대값의 차이
를 보는 적합성 검정F-분포(F-Distribution)
: 두 집단 간
분산의 동일성 검정
에 사용되는 검정 통계량 분포
확률변수
는 항상 양의 값
만을 갖고 χ2분포
와 달리 자유도를 2개
가지고 있으며 자유도가 커질수록 정규분포에 가까워짐
추정의 개요
확률표본(Random Sample)
확률분포
는 분포를 결정하는 평균
, 분산
등의 모수(Parameter)
를 가짐특정한 확률분포
로부터 독립적으로 반복
해 표본을 추출
관찰값
들은 서로 독립적
이며 동일한 분포
를 갖음추정
표본
으로부터 미지의 모수
를 추측
하는 것
점추정
과 구간추정
으로 구분
점추정(Point Estimation)
: 모수가 특정한 값
일 것이라고 추정
평균
, 중위수
, 최빈값
등을 사용구간추정(Interval Estimation)
: 점추정
의 정확성 보완
을 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것
이라고 선언하는 것
추정량의 분포에 대한 전제
가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기
(신뢰수준
)이 주어져야 함n
: 전체 표본수
가설검정
모집단
에 대한 어떤 가설을 설정
한 뒤에 표본관찰
을 통해 그 가설의 채택여부
를 결정
하는 분석방법표본관찰
또는 실험
을 통해 귀무가술
과 대립가설
중 하나
를 선택하는 과정귀무가설이 옳다는 전제
하에 검정통계량 값
을 구한 후에 이 값이 나타날 가능성의 크기
에 의해 귀무가설 채택여부 결정
귀무가설(Null Hypothesis, 𝐻0)
: 비교하는 값
과 차이가 없다, 동일하다
를 기본개념으로 하는 가설
대립가설(Alternative Hypothesis, 𝐻1)
: 뚜렷한 증거가 있을 때
주장하는 가설
검정통계량(Test Statistic)
: 관찰된 표본
으로부터 구하는 통계량
.
검정 시 가설의 진위 판단 기준
유의수준(Significance Level, 𝛼)
: 귀무가설을 기각하게 되는 확률의 크기
.
-> 귀무가설이 옳은데도 이를 기각하는 확률의 크기
기각역(Critical Region, C)=P-value=유의구간
: 귀무가설이 옳다는 전제
하에서 구한 검정통계량
의 분포에서 확률이 유의수준 𝛼인 부분
->반대
: 채택역(Acceptance Region)
*유의확률(p-value)
: 귀무가설이 맞다고 가정
할 때 얻을 수 있는 결과보다 실제값이 더 극단에 위치
할 확률
*검정력(Statistical Power)
: 대립가설이 사실
일 때, 대립가설을 채택하는 옳은 결정을 할 확률
모수적 방법
: 검정하고자 하는 모집단의 분포
에 대한 가정
을 하고, 그 가정하에서 검정통계량
과 검정통계량의 분포
를 유도해 검정을 실시
비모수적 방법
: 자료가 추출된 모집단의 분포
에 대한 아무 제약을 가하지 않고
검정을 실시
관측된 자료
가 특정분포를 따른다고 가정할 수 없는 경우
에 이용자료의 수가 많지 않거나
(30개 미만) 자료가 개체 간의 서열관계
를 나타내는 경우에 이용모수적 검정과 비모수 검정의 차이점
가설의 설정
모수적 검정
: 가정된 분포
의 모수
에 대해 가설 설정
비모수 검정
: 가정된 분포가 없으
므로 가설
은 단지 '분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다' 와 같이 분포의 형태에 대해 설정
검정 방법
모수적 검정
: 관측된 자료
를 이용해 구한 표본평균
, 표본분산
등을 이용해 검정 실시
비모수 검정
: 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(Rank)
나 두 관측값 차이의 부호
등을 이용해 검정
비모수 검정 예
부호검정(Sign Test)
윌콕슨의 순위합 검정(Wilcoxon's Rank Sum Test)
윌콕슨의 부호 순위 검정(Wilcoxon's Signed Rank Test)
맨-휘트니의 U검정(Mann-Whitney U test)
런 검정(Run Test)
스피어만의 순위상관계수(Spearmans's rank correlation analysis)
표
, 그림
, 통계량
등을 사용하에 쉽게 파악
할 수 있도록 정리/요약하는 것자료를 요약
하는 기초적 통계
통계적 수치를 계산
함으로써 데이터에 대한 대략적인 이해
와 앞으로 분석에 대한 통찰력
을 얻기에 유리객관적인 데이터
통계량에 의한 자료 정리
중심위치
의 측도
자료(데이터)
표본평균(Sample Mean)
중앙값(Median)
: 자료를 크기순으로 나열할 때 중앙에 위치
하는 자료값
산포의 측도
대표적인 산포도(Dispersion)
: 분산
, 표준편차
, 범위
및 사분위수범위
분산
표준편차
사분위수범위(Interquartile Range)
IQR
: Q3-Q1
사분위수
Q1
)=25%Q2
)=50%Q3
)=75%백분위수(Percentile)
변동계수(Coefficient of Variation)
표본평균의 표준오차
분포의 형태
에 관한 측도
왜도
비대칭정도
를 나타내는 측도첨도
중심
에서 뾰족한 정도
를 나타내는 측도그래프
를 이용한 자료 정리
히스토그램
: 표
로 되어 있는 도수 분포
를 그림
으로 나타낸 것.
-도수분포표
를 그래프로 나타낸 것
모자이크 플롯(Mosaic Plot)
: 교차표(2원, 3원)
를 시각화
한 그래프.
-사각형
들이 그래프에 나열되고 사각형의 넓이
는 범주에 속한 데이터 수(또는 비율)
막대그래프
와 히스토그램
의 비교
막대그래프
: 범주(Category)형
으로 구분된 데이터(ex. 직업, 종교, 음식 등)를 표현하며 범주의 순서
를 의도에 따라 바꾸기 o
히스토그램
: 연속(Continuous)형
으로 표시된 데이터(ex. 몸무게, 성적, 연봉 등)를 표현하며 임의로 순서 바꾸기x
, 막대간 간격x
히스토그램
의 생성
계급의 수
와 계급간격
을 계산하여 도수분포표
를 만들고 히스토그램 생성계급의 수
: 2^k>=n
을 만족하는 최소의 정수 log2n=k
에서 최소의 정수
k는 계급 수, n은 데이터 수)
계급의 간격
은 (최댓값-최솟값)/계급수
계급의 수
와 간격이 변하
면 히스토그램 모양이 변함
줄기-잎 그림(Stem-and Leaf Plot)
: 데이터
를 줄기
와 잎의 모양
으로 그린 그림
상자그림(Box Plot)
: 다섯 숫자 요약
(최솟값
, Q1
, Q2
, Q3
, 최댓값
)을 통해 그림으로 표현
-사분위수범위(IQR)
: Q3-Q1
-안울타리(Inner Fence)
: Q1-1.5xIQR ~ Q3+1.5xIQR
-바깥울타리(Outer Fence)
: Q1-3xIQR ~ Q3+3xIQR
-보통이상점(Mild Outlier)
: 안쪽울타리
와 바깥 울타리
사이 자료
-극단이상점(Extreme Outlier)
: 바깥울타리
밖의 자료
*R에서의 분위수
#특정 컬럼의 분위수를 알고 싶을 때 사용
quantile(data명$column명)
종속변수(반응변수, y)
: 다른 변수의 영향을 받는 변수
독립변수(설명변수, x)
: 영향을 주는 변수
산점도(Scatter Plot)
: 좌표평면 위
에 점
들로 표현한 그래프
공분산(Covariance)
: 두 확률변수
X
, Y
의 방향의 조합(선형성)
공분산의 부호
만으로 두 변수 간의 방향성
을 확인 가능부호
가 +
: 두 변수
는 양의 방향성
부호
가 -
: 두 변수
는 음의 방향성
X, Y
가 서로 독립
: Cov(X,Y)=0
두 변수
간의 관계
의 정도
를 알아보기 위한 분석방법두 변수
의 상관관계
를 알아보기 위해 상관계수(Correlation Coefficient)
를 이용상관관계 특성
상관계수 범위 | 해석 |
---|---|
0.7<𝛾<=1 | 강한 양(+)의 상관 |
0.3<𝛾<=0.7 | 약한 양(+)의 상관 |
0<𝛾<=0.3 | 거의 상관 없음 |
𝛾=0 | 상관관계(선형, 직선)가 존재X |
-0.3<=𝛾<0 | 거의 상관 없음 |
-0.7<=𝛾<-0.3 | 약한 음(-)의 상관 |
-1<=𝛾<-0.7 | 강한 음(-)의 상관 |
상관분석의 유형
상관분석을 위한 R코드
-x
: 숫자형 변수
, y
:NULL(default)
또는 변수
, na.rm
: 결측값 처리
분산(var)
var(x,y=NULL, na.rm=FALSE)
공분산(cov)
cov(x,y=NULL, use="everything", method=c("pearson","kendall","spearman"))
상관관계(cor/rcorr)
cor(x, y=NULL, use="everything", method=c("pearson","kendall","spearman"))
#Hmisc패키지의 rcorr사용
rcorr(matrix(data명), type=c("pearson","kendall","spearman"))
rcorr(x, y, type = c("pearson", "spearman"))
상관분석
의 가설 검정
상관계수 𝛾
가 0
이면 입력변수 x
와 출력변수 y
사이에는 아무런 관계가 없다
.귀무가설
: 𝛾=0
, 대립가설
: 𝛾!=0
)t-검정통계량
을 통해 얻은 p-value 값
이 0.05이하
인 경우 대립가설을 채택
하게 되어 우리가 데이터를 통해 구한 상관계수를 활용가능
상관분석 예제
datasets 패키지
의 mtcars
라는 데이터셋의 마일(mpg)
, 총마력(hp)
의 상관관계 분석 실시data(mtcars)
a<-mtcars$mpg
b<-mtcars$hp
cov(a,b)
cor(a,b)
cor.test(a,b,method="pearson")
결과 및 해석
mtcars 데이터셋
의 mpg
와 hp
를 각각 a,b
에 저장하여 mpg
와 hp
의 공분산(cov)
, 상관계수(cor)
를 구함
공분산
은 -320.7321
, 상관계수
는 -0.7761684
-> mpg
와 hp
는 공분산
으로 음의 방향성
을 가짐을 알 수 있고,
상관계수
로 강한 음의 상관관계
가 있음을 알 수 있음
cor.test
를 이용해 상관관계 분석
을 실행
p-value
가 1.788e-07
로 유의수준 0.05
보다 작게나타나 상관관계가 있음
-> p-value
가 0.05보다 작으면 통계적으로 유의미
하나
나 그 이상
의 독립변수
들이 종속변수
에 미치는 영향
을 추정
할 수 있는 통계기법변수들 사이
의 인과관계
를 밝히고 모형을 적합
하여 관심있는 변수를 예측
하거나 추론
하기 위한 분석방법독립변수의 개수
가 하나
이면 단순선형회귀분석
,독립변수의 개수
가 두 개 이상
이면 다중선형회귀분석
회귀분석의 변수
영향을 받는 변수(y)
: 반응변수(Response Variable)
, 종속변수(Dependent Variable)
, 결과변수(Outcome Variable)
영향을 주는 변수(x)
: 설명변수(Explanatory Variable)
, 독립변수(Independent Variable)
, 예측변수(Predictor Variable)
선형회귀분석의 가정
선형성
: 입력변수
와 출력변수
의 관계
가 선형
(선형회귀분석에서 가장 중요한 가정)
등분산성
(분산이 같음
)
: 오차의 분산
이 입력변수와 무관
하게 일정
.
-잔차플롯(산점도)
을 활용하여 잔차
(표본으로 추정한 회귀식과 실제 관측값의 차이
)와 입력변수
간에 아무런 관련성이 없게 무작위적
으로 고루 분포되어야 등분산성 가정 만족
독립성
: 입력변수
와 오차
는 관련X
-자기상관(독립성)
을 알아보기 위해 Durbin-Waston 통계량
사용
-시계열 데이터
에서 많이 활용
비상관성
: 오차들끼리
상관X
정상성(정규성)
: 오차의 분포
가 정규분포
를 따름.
-Q-Q plot
, Kolmogorov-Smirnov 검정
, Shaprio-Wilk 검정
등을 활용해 정규성 확인
*Anderson-Darling Test
: 콜모고로프-스미르노프 검정(K-S검정)
을 수정한 적합도
검정
-특정분포
의 꼬리(Tail)
에 K-S검정보다 가중치
를 더 두어 수행
-여러 분포
의 적합도 검정
이 가능하지만 정규성 검정
에 강력
*D'Agostino-Pearson Test
: 왜도
와 첨도
를 사용해 데이터가 정규분포를 따르는지 검정
(표본크기 20이상)
*Jarque-Bera Test
: 정규분포
의 기대 왜도
와 첨도
가 데이터에서 얻은 값
과 일치하는지 검정
그래프를 활용한 선형회귀분석의 가정 검토
선형성
: 선형회귀모형
에서는 아래 Linear 그래프
와 같이 설명변수(x)
와 반응변수(y)
가 선형적 관계에 있음
이 전제되어야 함
등분산성
: 설명변수(x)
에 대한 잔차의 산점도
를 그렸을 때, 아래 첫번째 그래프처럼 설명변수(x)
값에 관계없이 잔차들의 변동성(분산)
이 일정한 형태
를 보이면 선형회귀분석의 가정
중 등분산성 만족
-등분산 가정이 무너진
그래프는 설명변수(x)
가 커질수록 잔차의 분산
이 줄어드는
이분산의 형태
정규성
: Q-Q Plot
출력시 아래처럼 잔차
가 대각방향의 직선 형태
를 지니고 있으면 잔차는 정규분포를 따른다
고 할 수 있음.
가정에 대한 검증
단순선형회귀분석
: 입력변수
와 출력변수
간의 선형성
을 점검하기 위해 산점도
확인
다중선형회귀분석
: 선형성
, 등분산성
, 독립성
, 정상성
이 모두 만족하는지 확인
하나
의 독립변수
가 종속변수
에 미치는 영향
을 추정
하는 통계기법회귀분석
에서의 검토사항
회귀계수
들이 유의미한가?
: 해당 계수의 t-통계량(평균)
의 p-값
이 0.05보다 작으
면 회귀계수가 통계적으로 유의
모형
이 얼마나 설명력을 갖는가?
: 결정계수(𝑅^2)
확인
-결정계수
는 0~1값
을 가지며, 높은 값
을 가질 수록 추정된 회귀식의 설명력이 높음
모형
이 데이터를 잘 적합하고 있는가?
: 잔차
를 그래프
로 그리고 회귀진단
회귀계수
의 추정
(최소제곱법
, 최소자승법
)
: 측정값
을 기초로 하여 적당한 제곱합
을 만들고 그것을 최소
로 하는 값을 구하여 측정결과
를 처리하는 방법
잔차제곱
이 가장 작은 선
을 구하는 것회귀분석
의 검정
회귀계수
의 검정
회귀계수 β1
이 0
: 입력변수 x
와 출력변수 y
사이에는 아무런 인과관계X
회귀계수 β1
이 0
이면 적합된 추정식
은 아무 의미 없음
x의 회귀계수
인 t-통계량
에 대한 p-값
: 0.000581유의수준
인 0.05
보다 작으므로 회귀계수 추정치
들이 통계적으로 유의
Intercept(절편)
: 6.409, x(기울기)
: 1.529결정계수(R-squared)
: 0.8341데이터를 적절하게 설명
하고 있다곤 할 수 있음결정계수가 높아
데이터의 설명력이 높고
회귀분석결과에서 회귀식
과 회귀계수
들이 통계적으로 유의미하므로 에어컨 판대매수를 에어컨 예약대수로 추정 가능
회귀식
: "판매대수(y)=6.4095+1.2595*예약대수(x)"
결정계수
전체제곱합(Total Sum of Squares, SST)
회귀제곱합(Regression Sum of Squares, SSR)
오차제곱합(Error Sum of Squares, SSE)
결정계수(R^2)
는 전체제곱합
에서 회귀제곱합
의 비율
: SSR/SST
0<=R^2<=1
, SST=SSR+SSE
결정계수(R^2)
는 전체 데이터
를 회귀모형이 설명
할 수 있는 설명력
을 의미단순회귀분석
에서 결정계수
= 상관계수 𝛾^2
회귀직선
의 적합도 검토
결정계수(R^2)
을 통해 추정된 회귀식
이 얼마나 타당한지
검토
(결정계수
가 1
에 가까울수록 회귀모형이 자료
를 잘 설명
)
독립변수
가 종속변수 변동
의 몇%
를 설명
하는지 나타내는 지표
다변량 회귀분석(다중선형회귀분석)
에서는 독립변수의 수
가 많아지면, 결정계수
가 높아지므로 독립변수가 유의하든, 유의하지 않든
독립변수의 수가 많아지
면 결정계수가 높아지는 단점O
-> 단점 보완을 위해 수정된 결정계수(Ra^2 : adjusted R^2)
활용
수정된 결정계수
수정된 결정계수
는 결정계수
보다 작은 값으로 산출
MSE
: 평균제곱 오차
*오차(Error)
와 잔차(Residual)
의 차이
오차
: 모집단
에서 실제값
이 회귀선
과 비교해볼 때 나타나는 차이
정확치
와 관측치
의 차이)잔차
: 표본
에서 나온 관측값
이 회귀선
과 비교해 볼 때 나타나는 차이
.회귀모형
에서 오차항
은 측정X
로 잔차
를 오차항의 관찰값
으로 해석하여 오차항
에 대한 가정들의 성립 여부 조사.다중선형회귀분석(다변량회귀분석)
다중 회귀식
모형
의 통계적 유의성
F-통계량(분산)
으로 확인유의수준 5% 이하
에서 F-통계량
의 p-값
이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의F-통계량
이 크면 p-value가 0.05보다 작아지고
이렇게 되면 귀무가설을 기각
. 즉, 모형이 유의
회귀계수
의 유의성
단변량회귀분석(단순선형회귀분석)
의 회귀계수 유의성 검토
와 같이 t-통계량(평균)
으로 확인모든 회귀계수
의 유의성이 통계적으로 검증되어야 선택된 변수들의 조합
으로 모형 활용 가능
모형
의 설명력
결정계수(R^2)
나 수정된 결정계수(R^2)
확인모형
의 적합성
모형
이 데이터를 잘 적합
하고 있는지 잔차
와 종속변수의 산점도
로 확인데이터가 전제
하는 가정을 만족시키는가?
선형성
, 독립성
, 등분산성
, 비상관성
, 정상성
다중공선성(Multicollinearity)
다중회귀분석
에서 설명변수(x) 사이에 선형관계
가 존재하면 회귀계수의 정확한 추정
곤란다중공선성
검사 방법
분산팽창요인(VIF)
: 4보다 크면
다중공선성
존재, 10보다 크면
심각한 문제
상태지수
: 10이상
이면 문제O
, 30보다 크면
심각한 문제
다중선형회귀분석
에서 다중공선성
의 문제가 발생하면, 문제가 있는 변수
를 제거
or 주성분회귀
, 능형회귀 모형
을 적용하여 해결단순회귀
: 독립변수
가 1개
, 종속변수
와의 관계
가 직선
다중회귀
: 독립변수
가 k개
, 종속변수
와의 관계
가 선형
(1차 함수
)
로지스틱 회귀
: 종속변수
가 범주형(2진변수)
-단순 로지스틱 회귀/다중/다항 로지스틱 회귀
-exp
=e^
다항회귀
: 독립변수
와 종속변수
와의 관계
가 1차함수
이상
인 관계
-단, k=1
이면 2차 함수 이상
, k는 항의 수
곡선회귀
: 독립변수
가 1개
, 종속변수
와의 관계
가 곡선
-2차 곡선인 경우
-3차 곡선인 경우
비선형 회귀
: 회귀식
의 모양이 미지의 모수
들의 선형관계로 이뤄져 있지 않은 모형
R프로그램
을 통한 회귀분석
MASS 패키지
의 Car93
데이터셋의 가격(Price)
를 종속변수(y)
로 선정하고 엔진 크기(Engine-Size), RPM, 무게(Weight)
를 이용해서 다중회귀분석
실시library(MASS)
head(Cars93)
attach(Cars93) #데이터를 R 검색경로에 추가해 변수명으로 바로 접근 가능
lm(Price~EngineSize+RPM+Weight, data=Cars93) #lm 선형회귀분석
summary(lm(Price~EngineSize+RPM+Weight, data=Cars93))
F-통계량
: 37.98, p-value(유의확률)
: 6.746e-16회귀모형
이 통계적으로 매우 유의함
결정계수
: 0.5614 , 수정된 결정계수
: 0.5467회귀식
이 데이터를 적절하게 설명하고 있다곤 할 수 X
회귀계수들
의 p-값
이 0.05보다 작으므로 회귀계수의 추정치
들이 통계적으로 유의결정계수가 낮아
데이터 설명력은 낮으
나, 회귀분석 결과에서 회귀식
과 회귀계수
들이 통계적으로 유의
하여 자동차의 가격
을 엔진의 크기,RPM,무게
로 추정 가능R프로그램
을 통한 로지스틱 회귀분석
림프절
이 전립선 암
에 대해 양성
인지 여부를 예측
하는 데이터변수명 | 설명 |
---|---|
양성여부(r) | 전립선암에 대한 양성 여부 |
age | 환자의 연령 |
stage | 질병 단계 : 질병이 얼마나 진행되어 있는지 나타내는 척도 |
grade | 종양의 등급 : 진행의 정도 |
xray | x-선 결과 |
acid | 특정한 부위에 종양이 전이되었을 때 상승되는 혈청의 인산염값 |
glm
: 로지스틱 회귀분석
2번째 변수
인 양성여부(r)
를 종속변수(y)
로 두고, 5개의 변수
를 독립변수(x)
로 하여 로지스틱 회귀분석
실시age
와 grade
는 유의수준 5%하
에서 유의X
로 이를 제외한 3개의 변수(stage, xray, acid)
를 활용해 모형 개발stage, xray, acid
의 추정계수
는 유의수준 5%하
에서 유의
하게 나타나므로p(r=1)=1/(1+exp-(-3.05+1.65stage+1.91xray+1.64acid))
의 선형식
가능최적회귀방정식
의 선택
설명변수(x) 선택
필요한 변수
만 상황에 따라 타협을 통해 선택
y
에 영향을 미칠
수 있는 모든 설명변수 x
들을 y의 값을 예측
하는 데 참여
설명변수 x
들의 수가 많아
지면 관리
하는데 많은 노력이 요구되므로, 가능한 범위 내
에서 적은 수
의 설명변수 포함
모형선택(Exploratory Analysis)
분석 데이터
에 가장 잘 맞는 모형
을 찾아내는 방법모든 가능한 조합의 회귀분석(All Possible Regression)
: 모든 가능한 독립변수
들의 조합
에 대한 회귀모형을 생성
한 뒤 가장 적합한 회귀모형 선택
단계적 변수선택(Stepwise Variable Selection)
전진선택법(Forward Selection)
: 절편만 있는 상수모형
으로부터 시작해 중요하다고 생각되는 설명변수
부터 차례로 모형에 추가
-변수의 개수
가 많은
경우에도 사용 가능
-변수값의 작은 변동
에도 그 결과가 크게 달라짐
=>안정성 부족
후진제거법(Backward Elimination)
: 독립변수 후보 모두
를 포함한 모형에서 출발해 가장 적은 영향
을 주는 변수
부터 하나씩 제거
하면서 더 이상 제거할 변수가 없을 때
의 모형 선택
-변수의 개수
가 많은
경우 사용하기 어려움
-전체 변수들의 정보
를 이용
단계선택법(Stepwise Method)
: 전진선택법
에 의해 변수를 추가
하면서 새롭게 추가된 변수
에 기인해 기존 변수의 중요도
가 약화
되면 해당 변수를 제거
하는 등 단계별로 추가
또는 제거
되는 변수의 여부를 검토해 더 이상 없을 때 중단
벌점화된 선택기준
: 모형의 복잡도
에 벌점
을 주는 방법
방법
AIC(Akaike Information Criterion)
BIC(Bayesian Information Criterion)
설명
후보 모형
들에 대해 AIC
또는 BIC
를 계산하고, 그 값이 최소가 되는 모형
을 선택모형선택의 일치성(Consistency Inselection)
자료의 수
가 늘어날 때
참인 모형
이 주어진 모형 선택 기준의 최소값
을 갖게 되는 성질AIC
는 일치성 성립X
, BIC
는 주요 분포에서 성립
AIC
활용이 보편화된 방법벌점화 선택기준
: RIC(Risk Inflation Criterion)
, CIC(Covariance Inflation Criterion)
, DIC(Deviation Information Criterion)
최적회귀방정식
의 사례
변수 선택법 예제
(유의확률 기반
)x1, x2, x3, x4
를 독립변수로 가지고 y
를 종속변수로 가지는 선형회귀모형
을 생성한 뒤, step()함수를 이용하지 않고
직접 후진제거법
을 적용하는 R코드 작성summary(a)
에서 모형의 유의성
을 판단F-통계량
을 확인한 결과 111.5
이며, p-value
가 4.756e-07
임으로 통계적으로 유의
각각의 입력변수
들의 통계적 유의성 검토
t-통계량
을 통한 유의확률이 0.05보다 작은 변수가 하나도 존재하지 않아
모형을 활용할 수 없다고 판단유의확률
이 가장 높은 x3
을 제외하고 다시 회귀모형 생성x3
변수 제거 후, 모형의 유의성
: F-통계량
에 대한 유의확률은 통계적으로 유의x1
을 제외한 2개의 변수의 유의확률이 0.05보다 높게
나타나 유의하지 않음유의확률이 가장 높은 x4 변수
를 제외
하고 회귀모형 다시 생성F-통계량
을 통해 유의수준 0.05하
에서 모형이 통계적으로 유의미
다변량회귀분석
에 선정된 x1, x2
변수에 대한 각각의 유의확률 값이 모두 통계적으로 유의
수정된 결정계수
는 0.9744
로 선정된 다변량회귀식
이 전체 데이터의 97.44%를 설명
하고 있는 것을 확인후진제거법
을 통해 최종적으로 얻게 된 추정된 회귀식
y=52.57735+1.436831x1+0.66225x2
*부동소수점(Floating Point)
: 컴퓨터에서 실수
를 표시하는 방법
-(가수)(밑수)^(지수)
로 표현
-가수
: 유효숫자
-지수
:소숫점 위치
변수 선택법 예제
(벌점화 전진선택법
)step함수
를 사용하여 전진선택법
을 적용하여 변수 제거를 수행해보자.step(lm(출력변수~입력변수, 데이터셋), scope=list(lower=~1, upper=~입력변수)
, direction="변수선택방법")
#scope:변수선택과정에서 설정할 수 있는 가장 큰 모형/가장 작은 모형
#scope가 없는 경우
전진선택법 : 현재 선택한 모형을 가장 큰 모형으로,
후진제거법 : 상수항만 있는 모형을 가장 작은 모형으로 설정
#direction
forward : 전진선택법, backward : 후진제거법, stepwise : 단계선택법
#k : 모형선택 기준에서 AIC, BIC와 같은 옵션 사용
k=2이면 AIC, k=log(자료의 수)이면 BIC
벌점화
방식을 적용한 전진선택법
실시 결과, 가장 먼저 선택된 변수는 AIC값이 58.852
로 가장 낮은 x4
x4
에 x1
을 추가 했을 때, AIC값
이 28.742
가 되고 x2
를 추가했을 때 AIC값
이 24.974
로 최소화AIC
를 낮출 수 없어 변수 선택 종료회귀식
y=71.6483-0.2365x4+1.4519x1+0.4161x2
변수 선택법 예제
(벌점화 후진제거법
)8개의 입력변수
와 1개의 출력변수
)마지막 열(train)
에 있는 변수는 학습자료인지 예측자료인지를 나타내는 변수로 이번 분석에서 사용X변수명 | 설명 |
---|---|
lcavol | 종양 부피의 로그 |
lweight | 전립선 무게의 로그 |
age | 환자의 연령 |
lbph | 양성 전립선 증식량의 로그 |
svi | 암이 정낭을 침범할 확률 |
lcp | capsular penetration의 로그 값 |
gleason | Gleason 점수 |
pgg45 | Gleason 점수가 4 또는 5 인 비율 |
lpsa | 전립선 수치의 로그 |
library(ElemStatLearn)
Data=prostate
data.use=Data[,-ncol(Data)]
lm.full.Model=lm(lpsa~.,data=data.use)
후진제거법
에서 AIC
를 이용한 변수선택
AIC
는 -62.67
로 gleason
을 제거하고 회귀분석 실시lcp, pgg45
순서로 제거되어 회귀분석 실시Step : AIC=~
에 적혀있는 AIC
보다 작으면(절대값 기준 크면)
삭제
시간의 흐름
에 따라 관찰된 값
시계열 데이터 분석
을 통해 미래의 값
을 예측
하고 경향
, 주기
, 계절성
등을 파악하여 활용시계열 자료
의 종류
비정상성 시계열 자료
: 시계열 분석
을 실시할 때 다루기 어려운 자료
.
-대부분
의 시계열 자료
정상성 시계열 자료
: 비정상 시계열
을 핸들링
해 다루기 쉬운 시계열 자료로 변환한 자료
평균
이 일정할 경우
모든 시점
에 대해 일정한 평균
차분(Difference)
를 통해 정상화*차분
: 현시점 자료-전 시점 자료
-일반차분(Regular Difference)
: 바로 전 시점
의 자료를 빼는 방법
-계절차분(Seasonal Difference)
: 여러 시점 전
의 자료를 빼는 방법.
=> 계절성
을 갖는 자료를 정상화하는데 사용
분산
이 일정
분산
도 시점
에 의존하지 않고 일정
변환(Transformation)
을 통해 정상화공분산(두 확률변수의 방향의 조합)
도 단지 시차에만 의존
, 실제 특정 시점 t, s
에는 의존x
정상 시계열의 모습
정상 시계열
의 특징
정상 시계열
은 어떤 시점
에서 평균
과 분산
그리고 특정한 시차의 길이
를 갖는 자기공분산
을 측정하더라도 동일한 값
그 평균값
으로 회귀
하려는 경향이 있으며, 그 평균값 주변에서의 변동
은 대체로 일정한 폭
정상 시계열이 아닌 경우
특정 기간의 시계열 자료
로부터 얻은 정보를 다른 시기
로 일반화 불가능
분석방법
: 회귀분석(계량경제)방법
, Box-Jenkins 방법
, 지수평활법
, 시계열 분해법
등
자료 형태
에 따른 분석방법
일변량 시계열분석
: Box-Jenkins(ARMA)
, 지수 평활법
, 시계열 분해법
등
-시간(t)
를 설명변수(x)
로 한 회귀모형주가, 소매물가지수 등 하나의 변수
에 관심
을 갖는 경우의 시계열 분석
다중 시계열분석
: 계량경제 모형(회귀분석방법)
, 전이함수 모형
, 개입분석
, 상태공간 분석
, 다변량 ARIMA
등
-여러 개의 시간(t)
에 따른 변수들을 활용하는 시계열 분석
-계량경제
: 시계열 데이터에 대한 회귀분석
(ex. 이자율, 인플레이션이 환율에 미치는 요인)
이동평균법
과거
로부터 현재
까지의 시계열 자료
를 대상으로 일정 기간별
이동평균
을 계산하고, 이들의 추세를 파악하여 다음 기간을 예측
시계열 자료
에서 계절변동
과 불규칙 변동
을 제거
추세변동
과 순환변동
만 가진 시계열로 변환하는 방법n
개의 시계열 데이터를 m기간
으로 이동평균
하면 n-m+1개
의 이동평균 데이터가 생성이동평균법
의 특징
간단
하고 쉽게
미래 예측 가능자료의 수
가 많고
안정된 패턴
을 보이는 경우 예측의 품질(Quality)
이 높음
특정 기간 안
에 속하는 시계열에 대해서는 동일한 가중치 부여
뚜렷한 추세
가 있거나 불규칙변동이 심하지 않은 경우
에는 짧은 기간(m개수 적음)
의 평균 사용
불규칙 변동이 심한 경우
긴 기간(m의 개수가 많음)
의 평균
을 사용적절한 기간을 사용하는 것
적절한 m의 개수
를 결정하는 것지수평활법
일정 기간의 평균
을 이용하는 이동평균법
과는 달리모든 시계열 자료를 사용하여 평균을 구하
며, 시간의 흐름
에 따라 최근 시계열
에 더 많은 가중치
를 부여하여 미래 예측지수평활법
의 특징
단기간
에 발생하는 불규칙 변동을 평활
자료의 수가 많고
, 안정된 패턴
을 보이는 경우일수록 예측 품질 높음
지수평활법
에서 가중치의 역할
을 하는 것은 지수평활계수(α)
불규칙변동이 큰
시계열의 경우 지수평활계수(가중치)
는 작은 값
,불규칙변동이 작은
시계열의 경우 큰 값
의 지수평활계수(가중치)
를 적용0.05<=α<=0.3
)예측오차(실제 관측치와 예측치 사이의 잔차 제곱합,SSE)
를 비교하여 예측오차가 가장 작은 값
을 선택지수평활계수
는 과거
로 갈수록 지속적으로 감소
지수평활법
은 불규칙변동
의 영향을 제거하는 효과
가 있음중기 예측 이상
에 주로 사용단순지수 평활법
의 경우, 장기추세
나 계절변동
이 포함된 시계열 예측에는 적합x)자기회귀 모형(AR모형, Autoregressive Model)
: p시점 전
의 자료가 현재 자료
에 영향
을 주는 모형
AR(1) 모형
: 직전 시점
데이터로만 분석
AR(2) 모형
: 연속된 2시점 정도
의 데이터로 분석
자기상관함수(ACF)
는 빠르게 감소
부분자기함수(편자기상관함수)(PACF)
는 어느 시점
에서 절단점
을 가짐
ACF
가 빠르게 감소
하고, PACF
가 3시점
에서 절단점
을 갖는 그래프가 있다면, 2시점 전의 자료
까지가 현재에 영향을 미치는
AR(2)모형
*자기상관계수와 부분자기상관계수
이동평균 모형(MA모형, Moving Average Model)
: 유한한 개수
의 백색잡음의 결합
이므로 언제나 정상성 만족
1차 이동평균모형(MA(1) 모형)
: 이동평균모형
중 가장 간단한
모형
-시계열
이 같은 시점
의 백색잡음
과 바로 전 시점
의 백색잡음
의 결합
2차 이동평균모형(MA(2) 모형)
: 바로 전 시점
의 백색잡음
과 시차가 2
인 백색잡음
의 결합으로 이뤄진 모형
AR모형
과 반대
로 ACF에서 절단점
을 갖고, PACF
가 빠르게 감소
자기회귀누적이동평균 모형(ARIMA(p,d,q) 모형, Autoregressive Integrated Moving Average Model)
비정상시계열
모형차분
이나 변환
을 통해 AR모형
이나 MA모형
, 이 둘을 합친 ARMA모형
으로 정상화 가능p
는 AR모형
q
는 MA모형
과 관련이 있는 차수시계열 {Zt}
의 d번 차분
한 시계열이 ARMA(p,q)
모형이면,시계열 {Zt}
는 차수가 p,d,q
인 ARIMA모형
, 즉 ARIMA(p,d,q)모형
을 갖는다d=0
: ARMA(p,q)모형
, 정상성
만족ARMA(0,0)
일 경우 정상화 불필요
)p=0
: IMA(d,q)모형
, d번 차분
하면 MA(q)모형
따름q=0
: ARI(p,d)모형
, d번 차분
하면 AR(p)모형
따름ARIMA(0,1,1) #1차분 후 MA(1) 활용
ARIMA(1,1,0) #1차분 후 AR(1) 활용
ARIMA(1,1,2) #1차분 후 AR(1), MA(2), ARMA(1,2) 선택
->가장 간단한 모형을 선택하거나 AIC를 적용하여 점수가 가장 낮은 모형 선정
*자기회귀이동평균(Autoregressive and Moving Average, ARMA)
모형
: 자기회귀
와 이동평균
다항식으로, 약한 정상성
을 가진 확률적 시계열을 표현하는데 사용.
-ARMA(p,q)
로 표기(p
는 자기회귀 다항식 차수, q
는 이동평균 다항식 차수)
분해 시계열
: 시계열에 영향
을 주는 일반적인 요인
을 시계열에서 분리해 분석
하는 방법
회귀분석적
인 방법 주로 사용분해식
의 일반적 정의R
을 이용한 시계열분석
사망 시
나이
데이터를 이용한 시계열분석비계절성
을 띄는 시계열 자료트렌드 요소(추세요인)
, 불규칙 요소
로 구성분해 시계열
자료 읽기
및 그래프 그리기
library(tseries) #시계열 분석 및 전산 금융
library(forecast) #시계열 및 선형 모델에 대한 예측 함수
library(TTR) #기술 거래 규칙
king<-scan("http://robjhyndman.com/tsdldata/misc/kings.dat",skip=3)
#skip=3은 3번째 열 건너뜀, scan()은 입력함수
king.ts<-ts(king) #ts()는 시계열 데이터 생성
plot.ts(king.ts)
3년마다 평균
을 내서 그래프를 부드럽게 표현
king.sma3<-SMA(king.ts,n=3) #SMA : 이동평균
plot.ts(king.sma3)
8년마다 평균
을 내서 그래프를 부드럽게 표현king.sma8<-SMA(king.ts,n=8) #SMA : 이동평균
plot.ts(king.sma8)
ARIMA 모델
ARIMA모델
은 정상성 시계열
에 한해 사용비정상 시계열 자료
는 차분
해 정상성을 만족하는 조건의 시계열로 변경평균
이 시간에 따라 일정치 않은 모습을 보이므로 비정상시계열
=>차분
진행diff(data, differences=차분횟수)
-1차 차분 결과
에서 평균
과 분산
이 시간에 따라 의존하지 않음
을 확인
-ARIMA(p,1,q)모델
이며 차분
을 1번
해야 정상성
만족
ACF
와 PACF
를 통한 적합한 ARIMA 모델
결정
-ACF
lag
는 0
부터 값을 갖는데, 너무 많은 구간
을 설정하면 그래프를 보고 판단 어려움
ACF값
이 lag 1인 지점
빼고 모두 점선 구간 안
-PACF
PACF값
이 lag 1, 2, 3
에서 점선 구간
을 초과
하고 음의 값
을 가지며 절단점
은 lag 4
종합
ARMA 후보
들이 생성ARMA(3,0)모델
: PACF값이 lag4
에서 절단점을 가짐. AR(3)
ARMA(0,1)모델
: ACF값이 lag2
에서 절단점을 가짐. MA(1)
ARMA(p,q)모델
: AR모형+MA모형
적절한 ARIMA 모형 찾기
forecast패키지
에 내장된 auto.arima()함수
이용auto.arima()
: 데이터를 활용하여 최적의 ARIMA 모형
선택ARIMA 모형
은 ARIMA(0,1,1)
예측
king.arima<-arima(king,order=c(0,1,1))
#선정된 ARIMA 모형으로 데이터 보정(fitting)
king.forecasts<-forecast(king.arima)
#시계열 모델을 입력받아 적절한 예측치를 냄
king.forecasts
-42명의 영국왕 중에서 마지막 왕의 사망시 나이는 56세
-43번째에서 52번째 왕 까지의 10명의 왕의 사망시 나이를 예측한 결과 67.75살로 추정
-5명 정도만 예측하고 싶다면, 옵션에 h=5 입력(forecast에)
-신뢰 구간
은 80%~90%
사이
객체간
근접성(Proximity)
을 시각화
하는 통계기법군집분석
과 같이 객체
들을 대상으로 변수를 측정한 후, 개체들 사이의 유사성/비유사성
을 측정하여 개체들을 2차원 공간상
에 점
으로 표현하는 분석 방법점
으로 표현하여 개체들 사이의 집단화
를 시각적
으로 표현데이터
속에 잠재해 있는 패턴(Pattern)
, 구조
를 찾아냄소수 차원
의 공간
에 기하학적
으로 표현데이터 축소(Data Reduction)
의 목적으로 다차원척도법 이용데이터
에 포함되는 정보를 끄집어내기
위해서 다차원척도법을 탐색수단
으로써 사용다차원척도법
에 의해서 얻은 결과
를 데이터가 만들어진 현상
이나 과정
에 고유의 구조
로서 의미 부여개체들의 거리 계산
: 유클리드 거리행렬
활용
관측대상들의 상대적 거리
의 정확도
를 높이기 위해 적합 정도
를 스트레스 값(Stress Value)
로 나타냄
개체
들을 공간상
에 표현하기 위한 방법
: 부적합도 기준
으로 Stress
나 S-Stress
를 사용
최적모형의 적합
은 부적합도를 최소
로 하는 반복 알고리즘
을 이용.
이 값이 일정 수준 이하
가 될 때 최종적으로 적합된 모형
으로 제시
스트레스 값
Stree
와 적합도 수준 M
은 개체들을 공간상
에 표현하기 위한 방법으로 Stress
나 S-Stress
를 부적합도 기준
으로 사용
Stress | 적합도 수준 |
---|---|
0 | 완벽(Perfect) |
0.05 이내 | 매우 좋은(Excellent) |
0.05~0.10 | 만족(Satisfactory) |
0.10~0.15 | 보통(Acceptable, but Doubt) |
0.15 이상 | 나쁨(Poor) |
계량적 MDS(Metric MDS)
: 데이터가 구간척도
나 비율척도
인 경우 활용 (전통적인 다차원척도법
)
-N개
의 케이스에 대해서 p개
의 특성변수
가 있는 경우, 각 개체들간의 유클리드 거리행렬을 계산
하고 개체들
간의 비유사성 S
(거리제곱 행렬의 선형함수
)를 공간상에 표현
cmdscale
사례MASS
패키지의 eurodist
자료 이용거리 측정
cmdscale
을 이용하여 2차원
으로 21개의 도시들을 맵핑종축
은 북
쪽 도시를 상단
에 표시하기 위해 부호 변경
library(MASS)
#matrix 데이터 상의 값들을 거리로 생각하고 2차원상으로 나타냄
loc<-cmdscale(eurodist)
x<-loc[,1]
y<- -loc[,2]
#type="n" : 좌표를 찍지 않음, asp는 종횡의 비율
plot(x,y,type="n",asp=1,main="Metric MDS")
#cex=0.7 : 폰트 사이즈
text(x,y,rownames(loc),cex=0.7)
#v는 수직선 위치, h는 수평선 위치, lty는 선 유형(2:dashed), lwd는 선 두께
abline(v=0, h=0,lty=2,lwd=0.5)
비계량적 MDS(nonmetric MDS)
: 데이터가 순서척도
인 경우 활용
-개체들 간의 거리
가 순서
로 주어진 경우에는 순서척도
를 거리의 속성과 같도록
변환(Monotone Transformation)
하여 거리 생성
후 적용
isoMDS
사례MASS
패키지의 Swiss
자료를 이용하여 2차원
으로 도시 맵핑비옥도 지수
와 여러 사회경제적 지표를 측정한 자료library(MASS)
data(swiss)
swiss.x<-as.matrix(swiss[,-1])
swiss.dist<-dist(swiss.x) #유클리드 거리를 행렬 형태로 출력
swiss.mds<-isoMDS(swiss.dist) #2차원상으로 cmdscale과 비슷
plot(swiss.mds$points, type="n")
text(swiss.mds$points, labels=as.character(1:nrow(swiss.x)))
abline(v=0, h=0, lty=2, lwd=0.5)
sammon
사례swiss.x<-as.matrix(swiss[,-1]) #첫번째 열 제외
swiss.sammon<-sammon(dist(swiss.x))
plot(swiss.sammon$points, type="n")
text(swiss.sammon$points, labels=as.character(1:nrow(swiss.x)))
abline(v=0, h=0, lty=2, lwd=0.5)
변량
을 주성분(Principal Component)
이라는 서로 상관성이 높은 변수들의 선형 결합
으로 만들어 기존의 상관성이 높은 변수
들을 요약
, 축소
하는 기법첫번째 주성분
으로 전체 변동
을 가장 많이
설명할 수 있도록 하고, 두 번째 주성분
으로는 첫 번째 주성분
과는 상관성이 없어서(낮아서)
첫 번째 주성분이 설명하지 못하는
나머지 변동을 정보의 손실 없이 가장 많이 설명
할 수 있도록 변수들의 선형조합
을 만듦상관관계
, 연관성
을 이용해소수의 주성분
으로 차원을 축소
함으로써 데이터
를 이해
하기 쉽고 관리
하기 쉽게 해줌다중공선성
이 존재하는 경우, 상관성이 없는(적은) 주성분
으로 변수들을 축소
하여 모형 개발에 활용회귀분석
등의 모형 개발 시 입력변수들간 상관관계
가 높은 다중공선성(Multicollinearity)
이 존재할 경우 모형이 잘못 만들어져
문제 발생연관성이 높은
변수를 주성분분석
을 통해 차원을 축소
한 후에 군집분석
을 수행하면 군집화 결과
와 연산속도
를 개선 가능센서데이터
를 주성분분석
으로 차원을 축소
한 후에 시계열
로 분포
나 추세
의 변화를 분석하면 기계의 고장 징후
를 사전에 파악하는데 활용요인분석(Factor Analysis)
등간척도(또는 비율척도)
로 측정한 두 개 이상
의 변수들에 잠재되어 있는 공통인자
를 찾아내는 기법공통점
축소
하는데 활용원래 데이터를 활용
해서 몇 개의 새로운 변수
들을 만듦차이점
생성된 변수
의 수
요인분석
: 몇 개
라고 지정 없이
(2 or 3, 4, 5...) 만들기 가능주성분분석
: 제1주성분
, 제2주성분
, 제3주성분
정도로 활용생성된 변수
의 이름
요인분석
: 분석자
가 요인의 이름
을 명명
주성분분석
: 제1주성분
, 제2주성분
등으로 표현생성된 변수
들 간의 관계
요인분석
: 새 변수
들은 기본적으로 대등한 관계
를 갖고 '어떤 것이 더 중요하다'라는 의미는 없음. 단, 분류/예측
에 그다음 단계
로 사용된다면 그 때 중요성 의미가 부여
주성분분석
: 제1주성분
이 가장 중요
하고, 그 다음 제2주성분
이 중요분석 방법
의 의미
요인분석
: 목표변수
를 고려하지 않고
, 그냥 데이터가 주어지면 변수
들을 비슷한 성격들로 묶어서
새로운 잠재변수
를 만듦주성분분석
: 목표 변수
를 고려
하여 목표 변수
를 잘 예측/분류
하기 위하여 원래 변수들의 선형 결합
으로 이루어진 몇 개의 주성분
들을 찾아냄주성분분석
의 결과
에서 누적기여율(Cumulative Proportion)
이 85%
이상이면 주성분의 수
로 결정 가능Scree Plot
을 활용하여 고윳값(Eigenvalue)
이 수평을 유지하기 전단계
로 주성분의 수
선택USArrests 자료
100,000명의 인구 당 체포된 세 가지 강력범죄수(Assault, Murder, Rape)
와 각 주마다 도시에 거주하는 인구의 비율(%)
로 구성척도의 차이
가 상당히 크기 때문에 상관행렬
을 사용하여 분석특이치 분해(특이값 분해) : 행렬을 특정한 구조로 분해
를 사용하는 경우 자료 행렬의 각 변수의 평균
과 제곱의 합
이 1로 표준화
되었다고 가정4개의 변수들 간 산점도
> library(datasets)
> data(USArrests)
> pairs(USArrests,panel=panel.smooth, main="USArrests data") # 산점도 행렬
Murder
과 UrbanPop
비율간의 관련성이 작아보임
summary
#princomp : 주성분분석을 하는 함수. cor=TRUE면 상관행렬, F이면 공분산행렬
> US.prin<-princomp(USArrests,cor=TRUE)
> summary(US.prin)
#주성분을 x축, 주성분의 고유값(주성분의 분산)을 y축에 둔 그래프
> screeplot(US.prin,npcs=4,type="lines")
제1주성분
과 제2주성분
까지의 누적 분산비율
은 대략 86.8%
로 2개
의 주성분 변수를 활용하여 전체 데이터의 86.8%를 설명
가능
주성분
들에 의해 설명되는 변동의 비율
은 ScreePlot
으로 확인
Loadings
Comp.1-Comp.4
까지 기여하는 가중치
가 제시제1주성분
에는 네 개의 변수
가 평균적
으로 기여제2주성분
에는 (Murder,Assault)와 (UrbanPop, Rape)의 계수의 부호가 서로 다름
Scores
Comp.1-Comp.4
의 선형식
을 통해 각 지역(record)별
로 얻은 결과 계산제 1-2주성분
에 의한 행렬도
#자료행렬을 특이값 분해해 주성분분석을 실행하는 함수
#center=T : 데이터 중심이 0
#scale.=T : 데이터 표준화
> arrests.pca<-prcomp(USArrests, center=TRUE,scale.=TRUE)
#제 1,2 주성분에 의한 행렬도
> biplot(arrests.pca,scale=0)
폭행
과 살인
의 비율이 상대적으로 높은 지역
강간
의 비율이 높은 지역인구의 비율
이 높은 지역도시에 거주하는 인구의 비율
이 상대적으로 낮으면
서 3대 강력범죄도 낮다