ADP 4과목 - 데이터 분석

DMIS·2023년 2월 16일
0

ADP 필기

목록 보기
4/13
post-thumbnail

✐ 요약

✔︎ 모분산의 추론

  • 이표본에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다.
  • 모분산이 추론의 대상이 되는 경우는 모집단의 변동성 또는 퍼짐의 정도에 관심이 있을 때이다.
  • 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 정규 모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다.
  • 평균모집단에서 n개를 단순임의추출한 표본의 분산은 카이제곱분포를 따른다.

✔︎ 다중회귀분석 → 변수 선택 방법

구분내용장점단점
전진선택법절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다.이해하기 쉽고 변수의 개수가 많은 경우에도 사용 가능하다.변수값의 작은 변동에도 결과가 크게 달라져 안정성이 부족하다.
후진제거법독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택한다.전체 변수들의 정보를 이용한다.변수의 개수가 많은 경우 사용하기 어렵다.
단계선택법(단계적 방법)전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단한다.

✔︎ 비모수 검정

  1. 모수적 방법
  • 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법
  1. 비모수적 방법
  • 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법
  • 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용한다.
  • 관측된 자료의 수가 많지 않거나(30개 미만) 자료가 개체간의 서열관계를 나타내는 경우에 이용한다.
  1. 모수적 검정과 비모수 검정의 차이점
  • 가설의 설정
    • 모수적 검정은 가정된 분포의 모수에 대해 가설을 설정한다.
    • 비모수 검정은 가정된 분포가 없으므로 가설은 단지 ‘분포의 형태가 동일하다.’ 또는 ‘분포의 형태가 동일하지 않다.’와 같이 분포의 형태에 대해 설정한다.
  • 검정 방법
    • 모수적 검정은 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시한다.
    • 비모수 검정은 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값의 차이의 부호 등을 이용해 검정을 실시한다.
  1. 비모수 검정의 예시
  • 부호검정(sign test), 윌콕슨의 순위합검정(rank sum test), 윌콕슨의 부호순위합검정(signed rank test), 만-위트니의 U 검정, 런 검정(run test), 스피어만의 순위상관계수

✔︎ 분류 분석 In R

  • R에서 지원하는 분류(Classification) 방법
    • rpart
    • rpartOrdinal
    • randomForest
    • party
    • tree
    • marginTree
    • MapTree
  • k-means는 군집분석 방법이다.

✔︎ 감성분석

  • 문장에서 사용된 단어의 긍정과 부정 여부에 따라 긍정적인 단어가 얼마나 많은지를 파악하여 전체 문장의 긍정/부정 여부를 평가하는 분석방법이다.
  • 브랜드에 대한 평판에 긍정적인 추이가 증가하는지 혹은 감소하는지를 분석할 수 있다.
  • 각 문장의 긍정/부정 여부는 분석 주체에 따라 다르게 해석할 수 있다.
  • 텍스트에 포함된 내용이 주관적인지 객관적인지는 판단하지 않아도 된다.
  • 영향력이 높은 대상자에게는 높은 가중치를 부여함으로써 더 정확한 감성지표를 계산할 수 있다.

✔︎ 사회연결망 분석 → 네트워크 구조 파악 기법 → 중심성(Centrality)

구분내용
연결정도 중심성(Degree centrality)- 한 점에 직접적으로 연결된 점들의 합
- 한 점에 얼마나 많은 다른 점들이 관계를 맺고 있는지를 기준으로 그 점이 중심에 위치하는 정도를 계량화한 것
- 연결된 노드의 수가 많을수록 연결정도 중심성이 높아짐
근접 중심성(Closeness centrality)- 한 노드로부터 다른 노드에 도달하기까지 필요한 최소 단계의 합
- 근접 중심성이 높을수록 네트워크의 중앙에 위치함
매개 중심성(Betweerness centrality)- 네트워크 내에서 한 점이 담당하는 매개자 혹은 중재자 역할의 정도
- 한 노드가 연결망 내의 다른 노드들 사이의 최다 연결 경로 위에 위치하면 할수록 그 노드이 매개 중심성이 높음
위세 중심성(Eigenvector centrality)- 자신의 연결정도를 중심성으로부터 발생하는 영향력과 자신과 연결된 타인의 영향력을 합하여 결정
- 위세가 높은 노드들과 관계가 많을수록 자신의 위세 또한 높아짐
- 보나시치(Bonacich) 권력지수 : 위세 중심성의 일반적인 형태로, 연결된 노드의 중요성에 가중치를 둬 노드의 중심성을 측정하는 방법

✔︎ 시계열 분석 → 분해 시계열

  • 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며 회귀분석적인 방법을 주로 사용한다.
  • 분해식의 일반적 정의
    • Zt=f(Tt, St, Ct, It)Z_t=f(T_t,\ S_t,\ C_t,\ I_t)
    • TtT_t : 경향(추세)요인(Trend)
      • 자료가 오르거나 내리는 추세, 선형, 이차식 형태, 지수적 형태 등
    • StS_t : 계절요인(Season)
      • 요일, 월, 사계절, 각 분기에 의한 변화 등 고정된 주기에 따라 자료가 변하는 경우
    • CtC_t : 순환요인(Cycle)
      • 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 자료가 변하는 경우
    • ItI_t : 불규칙 요인(Irregular)
      • 위의 세 가지 요인으로 설명할 수 없는 오차에 해당하는 요인

✔︎ 통계분석의 이해 → 통계자료의 획득 방법 → 측정방법(척도)

  • 질적척도 : 명목척도, 순서척도
    • 범주형 자료, 숫자들의 크기 차이가 계산되지 않는 척도
  • 양적척도 : 구간척도(등간척도), 비율척도
    • 수치형 자료, 숫자들의 크기 차이를 계산할 수 있는 척도
구분내용
명목척도측정 대상이 어느 집단에 속하는지 분류할 때 사용하는 척도(성별, 출생지 구분 등)
순서척도(서열척도)측정 대상의 서열관계를 관측하는 척도(만족도, 선호도, 학년, 신용등급 등)
구간척도(등간척도)측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미있는 자료(온도, 지수 등)
비율척도간격(차이)에 대한 비율이 의미를 가지는 자료로 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도(무게, 나이, 시간, 거리 등)
  • 서열척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 활용할 수 있다.
    • 예 : 1등이 2등보다는 성적이 높다.
  • 구간척도는 절대적 크기를 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능하다.

✔︎ 분류분석 → 의사결정나무 → 의사결정나무의 특징

  • 장점
    • 결과를 누구에게나 설명하기 용이하다.
    • 모형을 만드는 방법이 계산적으로 복잡하지 않다.
    • 대용량 데이터에서도 빠르게 만들 수 있다.
    • 비정상 잡음 데이터에 대해서도 민감함 없이 분류할 수 있다.
    • 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향을 받지 않는다.
    • 설명변수나 목표변수에 수치형 변수와 범주형 변수를 모두 사용 가능하다.
    • 모형 분류 정확도가 높다.
  • 단점
    • 새로운 자료에 대한 과대적합이 발생할 가능성이 높다.
    • 분류 경계선 부근의 자료값에 대해서 오차가 크다.
    • 설명변수 간의 중요도를 판단하기 쉽지 않다.

✔︎ 과대적합(Overfitting)

  • 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트 하는 과정을 반복해 과대적합을 방지할 수 있다.
  • 과대적합은 분석 변수가 너무 많이 존재하고 분석 모델이 복잡할 때 발생한다.
  • 분석 데이터가 모집단의 특성을 설명하지 못하면 발생한다.
    • 분석 데이터가 훈련(train) 집단의 특성은 잘 설명하지만, 테스트(test) 데이터 집단의 특성을 잘 설명하지 못한다.
  • 생성된 모델은 분석(훈련 : train) 데이터에 최적화되었기 때문에 훈련 데이터의 작은 변화에 민감하게 반응한다.

✔︎ 군집분석 → SOM(Self-Organizing Map)

  • SOM(자기조직화지도) 알고리즘은 코호넨에 의해 제시, 발명되어 코호넨 맵이라고도 알려져 있음
  • SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 것이다.
    • 이러한 형상화는 입력 변수의 위치 관게를 그대로 보존한다는 특징이 있다.
    • 다시 말해, 실제 공간에서 입력 변수가 서로 가까이 있으면 지도 상에도 가까운 위치에 있게 된다.
  • SOM의 특징
    • 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉽다.
    • 입력 변수의 위치 관계를 그대로 보존하기 떄문에 실제 데이터가 유사하면 지도상에서 가깝게 표현되며, 이러한 특징 때문에 패턴 발견, 이미지 분석 등에서 뛰어난 성능
    • 역전파(Back Propagation) 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패서(feed-forward flow)를 사용함으로써 속도가 매우 빠르므로 실시간 학습 처리를 할 수 있는 모형)

✐ 오답노트

profile
Data + Math

0개의 댓글