adp _ 4과목 정리

ilysm96·2023년 5월 16일
0

3장 데이터 마트

데이터 마트란?

  • 데이터 웨어하우스와 사용자 사이 중간층에 위치

요약변수

  • 총 구매금액, 횟수, 구매 여부 등 분석에 맞게 종합한 것
  • 재활용성 높음

파생변수

  • 특정 조건, 함수에 의해 값을 만들어 의미를 부여한 것
  • 논리적 타당성 필요

reshape 활용

  • melt : 원 데이터 형태로 만드는 함수
  • cast : 요약 형태로 만드는 함수

R에서 sql 활용

  • sqldf를 사용한다 ex) sqldf("select * from dataframe)

data.table

  • data.frame 보다 월등히 빠른 속도
  • 빠른 grouping, ordering, 짧은 문장 지원 측면 데이터 프레임보다 유리
  • 탐색 연산 병합시 아주 유용

데이터 가공

변수의 구간화

  • 바이닝 : 연속형 변수를 범주형 변수로 구간화
  • 의사결정나무 : 각각의 분리 기준 값으로 연속형 변수를 구간화

기초 분석 및 데이터 관리

결측값 처리 방법

  • 단순 대치법
  • 평균 대치법
  • 단순확률 대치법 (추정된 표준오차의 과소 추정문제 보완 적절한 확률 값 부여)
  • 다중 대치법 (단순 대치법을 m번의 대치를 통해 m개의 가성적 완전 자료, 대치 분석 결합)

이상값 인식 방법

  • ESD
  • 기하평균: - 2.5표준편차 < data < 기하평균 + 2.5표준편차
  • 사분위수 이용: Q1-1.5IQR < data < Q3+1.5IQR

극단 값 제거 방법

  • 기하평균 이용
  • 하단, 상단 % 이용 제거
  • 상한 값, 하한 값 벗어나는 값들을 상한값, 하한값으로 대체

4. 통계분석

통계분석의 이해

표본 추출방법

  • 단순 랜덤 추출법 : 임의의 n개 추출 동일 확률
  • 계통 추출법 : n개의 구간으로 누눠서 K개씩 띄어서 선택
  • 집락 추출법 : 우선 군집을 구분하고 군집별로 단순 랜덤 추출, 집단 내 이질, 집단 간 동질
  • 층화 추출법 : 집단 내 동질, 집단 간 차이 이질적

측정

  • 명목척도 : 어느 집단에 속하는지 (성별, 출생지)
  • 순서척도 : 서열관계 (만족도, 학년, 신용등급)
  • 구간척도 : 속성의 양, 구간 사이의 간격이 의미있음 (온도, 지수)
  • 비율척도 : 차이에 대한 비율 의미 있음, 절대적 기준 0 존재, 사칙연산 (무게, 나이, 시간, 거리)

명목, 순서 - 질적자료 (숫자가 들어가도 차이 계산x)
구간, 비율 - 양적자료 (숫자들의 크기 차이를 계산 가능)

통계분석

  • 기술통계 : 주관이 섞이는 예측을 배제하고 평균, 표준편차, 그래프 등 구하는 것
  • 추측통계 (통계적 추론) : 1. 모수추정 2. 가설검정 3. 예측

확률 분포

이산형 확률변수

  • 이산점에서 0이 아닌 확률값을 갖는 확률 변수
  • 베르누이 확률분포
  • 이항분포
  • 기하분포
  • 다항분포
  • 포아송분포

연속형 확률변수

  • 실수구간에서 0이 아닌 확률을 갖는 확률 변수
  • 균일분포
  • 정규분포
  • 지수분포
  • t-분포 (크기가 적을때는 표준정규분포를 위에서 누른 형태, 두 집단 평균 동일한지 검정통계량 사용)
  • 카이제곱 분포 (두 집단 간의 동질성 검정)
  • F분포 (두 집단간 동일성 검정)

추정과 가설검정

  • 유의수준 : 귀무가설을 기각하게 만드는 확률의 크기 (귀무가설이 옳은데도 이를 기각하는 확률의 크기)
  • 기각역 : 귀무가설이 옳다는 전제 하 구한 검정통계량 분포에서 확률이 유의수준 알파인 부분
  • 제 1종오류 : 귀무가설이 맞는데 기각할 경우
  • 제 2종오류 : 귀무가설이 아닌데 채택할 경우

비모수 검정

  • 모수적 방법 : 모집단의 분포에 대한 가정을 하여 검정통계량 유도해 검정

  • 비모수적 방법: 가정된 분포가 없으므로 분포의 형태가 동일하다, 동일하지 않다와 같이 분포 형태 가설 설정

  • 비모수 검정 예: 부호검정, 윌콕슨 순위합, 윌콕슨 부호 순위 검정, 맨- 휘트니 U검정, 크루스칼-왈리스 H 검정, 런 검정, 스피어만 상관계수

기초통계분석

  • 왜도 : 분포의 비대칭 척도 (m>0 오른쪽으로 긴 꼬리, 최빈값<중앙값<평균)
  • 첨도 : 분포의 중심에서 뾰족한 정도 (m>0 정규분포보다 더 뾰족함)

인과관계의 이해

  • 공분산 : 두 확률변수 X,Y의 선형성
    - 공분산의 부호가 +이면 양의 방향성
    - 공분산의 부호가 -이면 음의 방향성
    - 서로 독립이면 공분산 0 (역은 성립 할 수도 안 할 수도)

상관계수

  • 피어슨 상관계수
    - 등간척도 변수
    - 연속형 변수, 정규성 가정
    - 피어슨 적률 상관 계수
  • 스피어만 상관계수
    - 서열척도 변수
    - 순서형 변수, 비모수적 방법
    - 순위상관로우

통계분석 방법론

t검정

  • 일표본 t검정
    - 단일모집단에서 연속형 변수의 평균값을 특정 기준값과 비교
    - 모집단이 정규분포를 이룬다는 가정
    - 과수원에서 생산되는 사과 평균 무게 200g, 실제 200 인지
    - 가설설정 → 유의수준 설정 → 검정통계량 값 및 유의확률 계산 → 기각여부 판단

  • 대응표본 t검정 (paired Sample t-test)
    - 단일모집단에 두번 처리를 했을 때, 두 처리에 따른 평균차이 비교
    - 모집단의 관측값이 정규분포를 이룬다는 가정
    - 10명의 환자 대상으로 영양제 복용 전과 후의 평균 수면시간 차이 있는지
    - 가설설정 → 유의수준 설정 → 검정통계량 값 및 유의확률 계산 → 기각여부 판단

  • 독립표본 t검정
    - 두 개의 독립된 모집단의 평균을 비교
    - 정규성 만족, 두 집단 독립, 등분산성, 모분산 동일
    - A,B 지역에 대한 10일 동안 겨울 낮 최고기온
    - 가설설정 → 유의수준 설정 → 등분산 검정 → 검정통계량 값 및 유의확률 계산 → 기각여부 판단

    분산분석

    일원배치 분산분석

  • 반응값에 대해 하나의 범주형 변수의 영향

  • 각 집단의 측정치는 서로 독립이고 정규분포를 따른다.

  • 각 집단 측정치의 분산은 같다
    - 귀무가설 : k개의 집단 간 모평균에는 차이가 없다 (M1=M2=M3...)
    - 대립가설 : k개의 집단 간 모평균이 모두 같다고 할 수 없다.
    - 사후분석 귀무가설 : 집단들 사이 평균은 같다
    - 사후분석 대립가설 : 집단들 사이의 평균은 같지않다.
    - 위 처럼 두 집단씩 짝을 지어 다중 비교

    이원배치 분산분석

  • 반응값에 대해 A,B 두개의 범주형 변수의 영향을 알아보자

  • A,B 사이의 상관관계 교호작용 검증 필요

  • 각집단 측정치는 정규분포이고 분산은 같다.
    - 귀무가설 : 변수에 따른 종속변수의 값에는 차이가 없다.
    - 귀무가설 : 알파와 베타 변수의 교호작용 효과가 없다.

    실험계획법

    실험계획의 원리

  • 랜덤화의 원리 : 실험 순서 무작위

  • 반복의 원리 : 최소 두 번이상 실험

  • 블록화의 원리 : 시간적 공간적 분할

  • 직교화의 원리 : 요인간 직교성

  • 교락의 원리 : 주효과와 교호효과를 구별할 수 없도록 조합 (주 효과 높게 추정 됨)

실험계획법의 종류

  • 요인배치법 : 인자간 조합 수준 랜덤, 교호효과 포함 모든 요인 효과 추정
  • 분할법 : 몇 단계로 분할하여 실험 순서 결정
  • 교락법 : 교호작용 다른 요인과 교락
  • 난괴법 : 실험단위 몇 개의 반복으로 나누어 배치

교차분석

교차분석이란?

  • 범주형 자료인 두 변수 간 관계를 알아보기 위해 실시
  • 적합도 검정, 독립성 검정, 동질성 검정
  • 카이제곱 검정 통계량 이용

적합도 검정

  • 실험에서 얻어진 관측값들이 예상한 이론과 일치하는지
    귀무가설 : 실제 분포와 이론간 차이가 없다
    대립가설 : 실제 분포와 이론간 차이가 있다
  • 카이제곱 통계량이 큰 경우 일치한다고 볼 수 없다.
  • 자유도 df=k-1 (k=범주의 개수)

독립성 검정

  • 두 변수들 사이의 관계가 독립인지 아닌지
    귀무가설 : 두 변수는 연관이 없다 (독립이다)
    대립가설 : 두 변수는 연관이 있다 (종속이다)
  • 카이제곱 통계량이 큰 경우 연관이 있다, 종속관계이다
  • 자유도 df=(R-1)(C-1) 행의수, 열의수

동질성 검정

  • 모집단에서 추출한 각 표본인 C개의 범주화된 집단의 분포는 서로 동일한지
    귀무가설 : P1j=p2j=...prj
    대립가설 : 하나라도 다른값이 존재한다
  • 카이제곱 통계량이 큰 경우 다른 값이 하나이상 존재한다.

4. 회귀분석

선형 회귀 분석

  • 가정
    - 독립, 종속 변수간 선형성
    - 오차의 등분산성
    - 오차의 정규성
    - 오차의 독립성 (더빈왓슨 통계량 2에 가까울 수록 오차항 자기상관x 0에 가까운 경우 양의 상관관계, 4에 가까울 수록 음의 상관관계)

단순선형회귀분석

  • 하나의 독립변수가 종속변수에 미치는 영향 추정
  • 잔차 제곱합을 최소로 만드는 최소제곱법을 통해 회귀계수 추정

단순선형회귀 결과해석

  1. 회귀모형이 통계적으로 유의한가? → F 검정
    • 귀무가설 : 회귀 계수가 0이다.
  2. 회귀계수는 통계적으로 유의한가? → t 검정
    • 귀무가설 : i 번째 회귀 계수가 0이다.
  3. 모형이 데이터를 얼마나 설명할 수 있는가? → SSR/SST

다중선형회귀분석

  • 두 개 이상의 독립변수가 종속변수에 미치는 영향 추정
  • 다중공선성 문제 발생시 독립변수 제거, 주성분분석, 릿지, 라쏘 회귀모형
  • 허용오차가 0.1 이하 혹은 VIF가 10 이상이면 공선성 문제 심각

다중선형회귀 결과해석

  1. 회귀모형이 통계적으로 유의한가? → F 검정
    • 귀무가설 : 모든 회귀 계수가 0이다.
  2. 회귀계수는 통계적으로 유의한가? → t 검정
    • 귀무가설 : i 번째 회귀 계수가 0이다.
  3. 모형이 데이터를 얼마나 설명할 수 있는가? → SSR/SST
    • 독립변수의 수가 많아지면 결정계수가 높아짐, 수정된 결정계수 활용

고급회귀분석

정규화 선형회귀

  • 과적합 방지를 위해 계수의 크기를 제한하는 방법으로 제약조건 추가
  • 라쏘(L1규제 가중치 절대값의 합 최소화, 0이 되진않음), 릿지(L2규제 가중치들의 제곱합을 최소화), 엘라스틱넷 회귀모형

일반화 선형모형(glm)

  • 종속변수가 범주형이거나 정규성을 만족하지 못하는 경우 사용

변수변환

  • 로그변환, 제곱근 변환 : 대부분 작은 값으로 구성되어 있는 데이터를 정규화 하기 위해
  • 지수변환, 제곱변환 : 대부분 큰 값으로 구성되어 있는 데이터를 정규호 하기 위해

더미변수

  • 범주값이 하나의 변수를 나타내는 형태로 더미변수를 생성
  • 더미변수의 수 = 변수 범주의 수 -1개

Box-Cox 변환

  • 데이터를 정규분포에 가깝게 만드는 방법
  • 로그변환이 가장 정규분포에 가깝게 변환됨

6절 시계열 분석

정상성

  • 모든 시점에 일정한 평균, 분산 시점에 의존하지 않음. 공분산도 시차에만 의존
  • 평균 일정하지 않은 시계열은 차분을 통해 정상화 (현시점에서 전 시점자료를 뺌)

자기회귀모형 (AR)

  • p 시점 전의 자료가 현재 자료에 영향을 주는 것
  • ACF는 빠르게 감소, PACF는 어느시점에서 절단점

이동평균모형 (MA)

  • 백색잡음의 결합으로 표현, 항상 정상성을 만족함
  • ACF 어느 시점에서 잘단점, PACF 빠르게 감소

분해 시계열

  • 시계열에 영향을 주는 일반적인 요인 (추세, 계절, 순환, 불규칙)

7장 다차원 척도법

  1. 다차원 척도법 (객체간 근접성을 시각화)
    • 개체들간 유클리드 거리행렬
    • 적합 정도를 스트레스 값으로 나타냄
  2. 다차원 척도법 종류
    - 계량적 MDS : 데이터가 구간, 비율 척도인 경우, 객체들간 유클리드 거리행렬
    • 비계량적 MDS : 데이터가 순서척도인 경우

    8장 주성분 분석

  • 서로 상관성이 높은 변수들의 선형결합으로 이루어진 주성분이라는 새로운 변수를 만드는 것.

  • 소수의 주성분으로 차원을 축소

    요인분석 vs 주성분 분석

    요인분석

  • 변수들끼리 상관관계 고려하여 유사한 변수를 묶어 새로운 잠재 요인 추출

    요인추출 방법

  • 주성분 분석, 공통요인 분석

    요인의 수 결정

  • 고유값(eigenvalue)을 기반으로 할 때 교유값이 1이상에 해당되는 요인들을 추출

  • 스크리 도표 : 설명력 하락하다가 완만한 추락으로 바뀌기 직전 요인의 수

    주성분 선택법

  • 주성분 기여율은 주성분의 설명력, 누적 기여율이 85%가 되면 지정되면 수로 결정

profile
안녕하세요 반갑습니다!

0개의 댓글