이번 글은

제1장. 데이터 전처리

데이터 오류

  • 결측치(Missing Value) : 측정된 데이터 샘플에서 누락된 변수값, 샘플 제거, 해당 변수 제거, 결측치 무시, 결측치 추정 등의 방버 사용
  • 잡음(Noise) : 데이터 측정 시 개입되는 임의적 요소, 본래의 참값에서 벗어나게 하는 오류, 구간화, 군집화, 회귀모형 변환 등을 이용한 잡음 제거
  • 이상치(Outlier) : 대부분의 다른 측정값들과 현저한 차이를 보이는 샘플 혹은 변수값, 오류인 경우 이상치 제거 또는 무시, 특이값인 경우 관심을 두고 분석 수행

빅데이터 정제

  • 데이터를 불완전하게 만드는 요소를 제거하기 위한 업무, 데이터 변환, 교정 및 통합

ETL(Extract, Transform, Load) 주요 기능

  • 논리적 데이터 변환, 도메인 검증, DBMS 간 데이터 변환, 기본값 생성, 데이터 요약, 불필요한 데이터 또는 중복 데이터 삭제, 레코드 통합 등

데이터 정제 및 처리 솔루션

  • 대화형 처리, 배치 처리, 실시간 처리 등을 위한 Cloudera, Hortonworks, Azure, MapReduce, Pig, AWS 등

데이터 세분화(Segmentation)

  • 데이터를 유의미한 기준에 따라 나누는 작업으로서 정형 데이터의 경우 큰 문제가 없으나 비정형 및 반정형 데이터의 경우 데이터 형식 변환 기준에 따른 세분화 작업이 요구됨

데이터 결측값 종류

  • 완전 무작위 결측(MCAR; Missing Completely At Random) : 어떤 변수 상에 결측 데이터 관측된 혹은 관측되지 않은 변수와 아무 연관이 없음
  • 무작위 결측(MAR; Missing At Random) : 어떤 변수 상에 결측 데이터가 관측된 다른 변수와 연관되어 있지만, 그 자체의 비관측된 값들과는 연관되어 있지 않음
  • 비무작위 결측(NMAR; Not Missing At Random) : 어떤 변수의 결측 데이터가 완전 무작위 또는 무작위 결측이 아닌 경우로 소득, 성별, 나이 데이터 등

결측값 대체 방법

  • 결측치가 있는 경우 제거하거나 시계열 자료인 경우 같은 시기의 데이터로 대체, 평균값, 최빈값 등으로 대체 사용(평균치 삽입법, 보삽법, 평가치 추정법 등 사용)

데이터 이상값

  • 입력 오류, 데이터 처리 오류 등의 이유로 특정 범위에서 벗어난 데이터 값, 속성의 값이 일반적인 값보다 편차가 큰 값, 특정 범위를 벗어난 자료
  • 주어진 자료에 대해서 데이터의 분포나 자료의 형태를 보고 이상치 판정

이상값 검출 방법

  • Variance, Likelihood, Nearest-nighbor, Density, Clustering, Box-plot 등

이상값 처리 방법

  • 하한 및 상한값, 평균의 표준편차, 평균의 절대편차, 극 백분위수 등으로 대체

변수(Variable)

  • 관심의 대상이 되는 사물이나 사건의 속성으로 보통 서로 다른 두 개 이상의 값을 가짐
  • 컴퓨터 프로그래밍에서의 변수 : 아직 알려지지 않거나 어느 정도까지만 알려져 있는 양이나 정보에 대한 상징적 이름

속성에 따른 변수

  • 이산, 연속, 더비 변수 등

기능에 따른 변수

  • 독립, 종속, 통제, 매개, 외생, 억압 변수 등

차원축소(Dimensionality Reduction)

  • 분석대상이 되는 여러 변수들의 주요 정보는 최대한 유지하면서 데이터세트 변수의 개수를 줄이는 일련의 탐색적 데이터분석기법
  • 주요 알고리즘 : 주성분, 독립성, 특이값 분해, 요인, 다차원 척도법 등

파생변수(유도변수, Derived Variable)

  • 기존 변수에 특정 조건 또는 함수 등을 이용하여 새롭게 재정의한 변수
  • 생성 방법 : 단위 및 척도 변환, 표현 형식, 요약 통계량 이용, 변수 결합 등

변수변환

  • 수학적 의미에서 보면, 어떤 변수(들)로 나타낸 식을 다른 변수(들)로 바꿔 나타내는 기법
  • 구간화, 평활화, 클러스터링, 타깃변수 예측을 위한 의사결정나무 등 이용

불균형 데이터

  • 어떤 데이터에서 각 클래스(주로 범주형 변수)가 갖고 있는 데이터의 양에 차이가 큰 경우 발생

불균형 데이터 처리방법

  • Undersampling : 다수 클래스 데이터에서 일부만 사용. 무작위로 정상 데이터 일부 선택
  • Oversampling : 소수 클래스 데이터를 증가시키는 방법. 무작위로 소수 데이터 복제

제2장. 데이터 탐색

데이터 탐색(EDA; Exploratory Data Analysis)

  • 쌓여 있는 데이터를 기반으로 연구 목적에 맞는 가설을 세우고 데이터를 분석하는 작업으로 데이터의 구조와 특징을 파악하고 분석을 통해 얻은 정보를 토대로 통계적 분석모형을 만듦

EDA 절차

  • 데이터 속성 파악 → 데이터 결측치 확인 → 데이터 이상치 확인

상관관계 분석

  • 두 변수 사이에 얼마나 선형적인 관계가 있는지를 파악하기 위해서 사용되는 통계적 방법

산점도(산포도)

  • 두 개의 변수가 짝을 이루는 경우 두 변수 사이의 관계를 그림으로 표현한 것

상관계수

  • 두 변수의 직선화 정도를 파악할 수 있는 통계량
  • 피어슨 상관계수 : 두 변수가 연속형 자료인 경우 두 변수 사이의 연관성 정도 파악
  • 스피어만 상관계수 : 분석하려는 데이터가 순위를 나타내는 순위형 자료(서열 척도)인 경우

통계학

  • 기술 통계학 : 자료의 특성을 쉽게 파악할 수 있도록 자료의 대푯값을 구하고 자료를 간단히 그래프로 표현하여 분석
  • 추측 통계학 : 자료에 있는 불확실한 사실에 대한 추론을 하는 것으로 모집단에서 표본을 추출해서 선출된 표본으로 모집단의 특성 파악
  • 모집단 : 관심의 대상이 되는 전체 집합
  • 표본집단 : 모집단에서 추출된 일부
  • 모수 : 모집단의 특성을 수치로 나타낸 것
  • 통계량 : 표본집단의 특성을 수치로 나타낸 것

중심위치의 기초 통계량

  • 산출평균, 가중 산술평균, 기하평균, 조화평균, 중위수, 최빈값, 사분위수 등

흩어짐(퍼짐) 정도를 나타내는 기초 통계량

  • 범위, 분산, 표준편차, 변동계수(표본평균/표본편차), 사분위 범위 등

분포의 모양을 나타내는 척도

  • 왜도(Skewness) : 자료 분포의 비대칭도 파악. 왜도 = 0이면 대칭 분포. 왜도가 +이면 왼쪽으로 기울고, -이면 오른쪽으로 기울어진 분포 모양
  • 첨도(Kurtosis) : 분포가 중심에서 얼마나 뾰족한지를 나타내는 통계량. 3보다 작으면 정규 분포보다 뾰족한 모양. 3보다 크면 정규 분포보다 완만한 모양을 나타냄

시각적 데이터 탐색

  • 시각 이해의 계층도를 통해 데이터, 정보, 지식, 지혜 사이의 계층적 관계 설명
  • 데이터 사이의 관계 등을 찾아 정보를 발견하고 정보가 좀 더 조직화되었을 때 지식이 되며, 정보가 구조화되어 적용되었을 때 지혜가 됨

시공간 데이터

  • 공간적 객체에 시간의 개념이 추가된 것. 시간에 따라 위치나 형상이 변하는 데이터
  • 데이터를 공간과 시간의 흐름상에 위치시킬 수 있는 거리 및 시간 속성을 가짐
  • 시공간 데이터를 저장하기 위한 공간 데이터 타입은 객체의 기하학적인 특성을 기준으로 저장됨(포인트, 라인, 폴리곤, 폴리라인 등)
  • 이산적 변화 : 시간의 흐름에 따라 시와 군의 통합으로 인해 상호간의 행정경계가 변화
  • 연속적 변화 : 일정한 주기로 수집된 기상정보를 이용하여 기상전선의 변화를 나타냄

다변량 데이터 분석

  • 많은 수의 케이스를 특성이 비슷한 몇 가지 집단으로 분류하여 전체 케이스가 가지고 있는 의미를 분류된 몇 개의 집단으로 설명
  • 변수의 차원을 줄이는 방법 : 다변량 회귀 분석, 다변량 분산 분석, 주성분 분석, 요인 분석, 정준상관 분석
  • 케이스의 차원을 줄이는 방법 : 군집 분석, 판별 분석, 다차원 척도법

비정형 데이터 탐색

  • 일반적으로 비정형 데이터 탐색 및 정련 과정을 통해 정형 데이터로 만든 후 분류, 군집화, 회귀 분석, 요약, 이상감지 분석 등의 데이터 마이닝을 통해 의미 있는 정보를 발굴

비정형 데이터 탐색 및 분석 방법

  • 통계기반의 데이터 분석 도구 사용
  • OLAP(Online Analytical Processing) 분석
  • 데이터 내에 숨겨진 관계, 패턴, 경향 등을 추출
  • 텍스트 마이닝, 오피니언 마이닝, 웹 마이닝, 소셜 네트워크 마이닝 기법 등 활용

제3장. 통계기법 이해

데이터 요약값

  • 데이터 분석을 위해 간단한 기초통계량을 중심으로 제시된 값

표본 추출

  • 모집단의 부분 집합을 추출한 것
  • 추출된 표본(Sample)은 모집단과 같은 대표성을 가진다고 가정
  • 모집단 전체에 대한 분석이 사실상 불가능한 제약으로 표본 이용
  • 전체 대상의 특성을 대표할 수 있는지의 여부 확인
  • 표본의 대표성이 중요

확률적 표본 추출 방법

  • 단순 무작위 추출 : 표본이 추출될 확률이 동일한 경우
  • 층화표본 추출 : 두 개 이상의 층으로 나누고 각 층마다 독립적으로 단순 임의 추출
  • 집락(군집)표본 추출 : 이질적인 군집으로 구분, 무작위로 몇 개의 군집을 표본 추출
  • 계통표본 추출 : 모집단 목록에서 일정한 순서에 따라 요소 추출

비확률적 표본추출 방법

  • 할당표본 추출 : 모집단을 일정한 카테고리로 나눈 후 각 카테고리에서 정해진 표본 수만큼 작위적으로 추출
  • 유의표본 추출 : 연구자가 연구목적의 달성에 도움이 되는 구성요소를 의도적으로 추출
  • 임의표본 추출 : 정해진 표본 선출 시까지 모집단의 일정 단위 또는 사례 표집
  • 누적표본 추출 : 소수 인원을 조사원으로 활용하여 주위 사람들을 조사

확률 변수와 확률 분포

  • 확률 변수(Random Variable) : 표본공간의 근원 사상을 정수나 실수로 표현하여 나타낸 변수
  • 확률 분포(Provavility Distribution) : 확률 변수를 중심으로 확률 변수의 특성에 따라 확률로 표현한 분포

이산 확률 분포

  • 확률 변수가 일정한 수로 나타나는 경우
  • 베르누이 시행 : 확률 변수가 성공 아니면 실패로 표본공간이 이루어진 경우
  • 이항 분포 : 성공활률이 p인 베르누이 시행을 n번 독립적으로 반복할 때의 성공 횟수
  • 포아송 분포 : 단위시간당 또는 단위면적당 사건의 평균 횟수가 몇 번인지를 확률 변수로 정의
  • 초기하 분포 : 유한 모집단에서 비복원 추출의 경우 성공의 수를 확률 변수로 정의
  • 기하분포 : 첫 번째 성공이 일어날 때까지의 베르누이 시행 횟수
  • 음이항 분포 : 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복할 때 K번 성공하기까지의 시행 횟수
  • 다항 분포 : 여러 번의 독립시행에서 각각의 값이 특정 횟수가 나타날 횟수

연속 확률 분포

  • 확률 변수가 연속적인 수로 나타나는 경우
  • 정규 분포 : 모수인 평균과 표준편차에 의해 모양 결정. 평균을 중심으로 종모양의 분포
  • 표준 정규 분포 : 평균 =0, 표준편차 = 1인 정규 분포
  • t분포 : 표준 정규 분포를 따르는 확률 변수가 표준편차를 알 수 없어 추정값을 사용하거나 표본의 크기가 작을 때 이용. 자유도에 따라 모양이 변함
  • 카이제곱 분포 : 확률 변수들이 각각 표준 정규 분포를 따르고 서로 독립일 때 확률 변수의 제곱의 합의 분포
  • F 분포: 두 정규 모집단에서 추출된 표본으로부터 두 모집단의 분산에 대한 검정 시 사용

표본 분포와 통계량

  • 표본 분포 : 추출된 표본(통계량)의 확률 분포, 모집단에서 일부분을 추출하여 표본을 만들고 추출된 표본을 이용하여 분포에 대한 추론을 수행함
  • 통계량 : 표본집단의 특성값, 모평균을 추론하기 위해 표본평균을 활용함

중심극한정리

  • 표본의 크기가 큰 경우에 표본평균의 분포는 모집단의 분포와 무관하게 정규 분포를 따름

점추정

  • 모수를 하나의 값으로 추정하여 나타냄
  • 모평균 추정을 위한 표본평균 값
  • 모분산 추정을 위한 표본분산
  • 모비율 추정을 위한 표본집단의 비율 등
  • 추정량(Estimator) : 모수를 추정하기 위해 만들어진 표본 통계량
  • 추정치(Estimate) : 주어진 관측값으로부터 계산된 통계량 값
  • 표준오차 : 추정량의 정확도를 측정하는 도구. 추정량의 표준편차 이용

구간추정

  • 신뢰구간 : 추정량의 분포를 이용해서 표본으로부터 모수값을 포함할 것으로 예상되는 구간
  • 신뢰수준 : 신뢰구간이 모수를 포함할 확률

표본의 최소 크기

  • 적정한 신뢰구간을 이용하여 표본의 크기를 구함. 일반적으로 모집단에 대한 분포의 가정이 없을 때 중심극한정리를 만족하도록 하기 위해서 표본의 크기는 30 이상이 되도록 함

추정량의 성질

  • 불편성(비편향성) : 추정량의 기댓값과 모수의 실젯값이 같아야 함
  • 효율성(유효성) : 추정량의 분산이 작아야 함
  • 일치성 : 표본의 크기가 커질수록 추정량이 모수에 일치해야 함
  • 충분성 : 동일한 표본으로부터 얻은 추정량이 모집단의 모수에 대한 정보를 더 많이 제공해야 함

가설 검정

  • 모집단의 모수에 대한 추정값에 대한 검정
  • 통계적 가설 : 표본의 특성을 나타내는 모수에 대한 주장
  • 귀무가설 : 모집단의 모수에 대해 어떤 조건을 가정하여 설정된 가설(거짓이 명확히 규명될 때까지 참인 것으로 인정되는 주장)
  • 대립가설 : 귀무가설의 반대되는 가설(모수에 차이가 있다는 것을 나타냄, 효과가 있다는 주장)

유의수준

  • 유의수준(α) : 귀무가설이 참인데 참인 귀무가설을 기각하면서 생기는 오류(제1종 오류)
  • 유의수준을 기준으로 기각과 채택을 결정함
  • 유의확률(p) : 주어진 통계량에서 귀무가설을 기각할 수 있는 최소의 유의수준 값
  • 검정 통계량 : 모집단의 부분집합인 표본으로부터 검정에 대한 결론을 내리고 귀무가설을 기각하거나 채택하는 결정을 내리는 데 활용되는 표본의 함수
  • 채택역 : 귀무가설을 채택하는 검정 통계량의 영역
  • 기각역 : 귀무가설을 기각하는 검정 통계량의 영역

가설 검정 절차

  • 가설수립 → 유의수준 결정 → 검정 통계량 계산 → 기각역 설정 → p≤α이면 귀무가설 기각
profile
가치를 만드는 데이터 분석가

0개의 댓글