[빅데이터 분석기사 필기] 제2과목. 빅데이터 탐색

Bob Park·2022년 9월 24일

2022 빅데이터분석기사 필기 한권으로 끝내기 Kdata big data 빅데이터 분석기사 빅데이터 탐색 요약노트 필기시험

[자격증] 빅데이터 분석기사

목록 보기

4/8

이번 글은

『2022 빅데이터분석기사 필기 한권으로 끝내기』(정혜정, 장희선, 시대고시기획)에서 제공되는 합격 알고리즘 노트의 내용을 중심으로 작성하였다.
문제풀이, 세부 내용 학습 중, 중요하다고 생각되는 내용을 추가 기입하였다.

제1장. 데이터 전처리

데이터 오류

결측치(Missing Value) : 측정된 데이터 샘플에서 누락된 변수값, 샘플 제거, 해당 변수 제거, 결측치 무시, 결측치 추정 등의 방버 사용

잡음(Noise) : 데이터 측정 시 개입되는 임의적 요소, 본래의 참값에서 벗어나게 하는 오류, 구간화, 군집화, 회귀모형 변환 등을 이용한 잡음 제거

이상치(Outlier) : 대부분의 다른 측정값들과 현저한 차이를 보이는 샘플 혹은 변수값, 오류인 경우 이상치 제거 또는 무시, 특이값인 경우 관심을 두고 분석 수행

빅데이터 정제

데이터를 불완전하게 만드는 요소를 제거하기 위한 업무, 데이터 변환, 교정 및 통합

ETL(Extract, Transform, Load) 주요 기능

논리적 데이터 변환, 도메인 검증, DBMS 간 데이터 변환, 기본값 생성, 데이터 요약, 불필요한 데이터 또는 중복 데이터 삭제, 레코드 통합 등

데이터 정제 및 처리 솔루션

대화형 처리, 배치 처리, 실시간 처리 등을 위한 Cloudera, Hortonworks, Azure, MapReduce, Pig, AWS 등

데이터 세분화(Segmentation)

데이터를 유의미한 기준에 따라 나누는 작업으로서 정형 데이터의 경우 큰 문제가 없으나 비정형 및 반정형 데이터의 경우 데이터 형식 변환 기준에 따른 세분화 작업이 요구됨

데이터 결측값 종류

완전 무작위 결측(MCAR; Missing Completely At Random) : 어떤 변수 상에 결측 데이터 관측된 혹은 관측되지 않은 변수와 아무 연관이 없음

무작위 결측(MAR; Missing At Random) : 어떤 변수 상에 결측 데이터가 관측된 다른 변수와 연관되어 있지만, 그 자체의 비관측된 값들과는 연관되어 있지 않음

비무작위 결측(NMAR; Not Missing At Random) : 어떤 변수의 결측 데이터가 완전 무작위 또는 무작위 결측이 아닌 경우로 소득, 성별, 나이 데이터 등

결측값 대체 방법

결측치가 있는 경우 제거하거나 시계열 자료인 경우 같은 시기의 데이터로 대체, 평균값, 최빈값 등으로 대체 사용(평균치 삽입법, 보삽법, 평가치 추정법 등 사용)

데이터 이상값

입력 오류, 데이터 처리 오류 등의 이유로 특정 범위에서 벗어난 데이터 값, 속성의 값이 일반적인 값보다 편차가 큰 값, 특정 범위를 벗어난 자료

주어진 자료에 대해서 데이터의 분포나 자료의 형태를 보고 이상치 판정

이상값 검출 방법

Variance, Likelihood, Nearest-nighbor, Density, Clustering, Box-plot 등

이상값 처리 방법

하한 및 상한값, 평균의 표준편차, 평균의 절대편차, 극 백분위수 등으로 대체

변수(Variable)

관심의 대상이 되는 사물이나 사건의 속성으로 보통 서로 다른 두 개 이상의 값을 가짐

컴퓨터 프로그래밍에서의 변수 : 아직 알려지지 않거나 어느 정도까지만 알려져 있는 양이나 정보에 대한 상징적 이름

속성에 따른 변수

이산, 연속, 더비 변수 등

기능에 따른 변수

독립, 종속, 통제, 매개, 외생, 억압 변수 등

차원축소(Dimensionality Reduction)

분석대상이 되는 여러 변수들의 주요 정보는 최대한 유지하면서 데이터세트 변수의 개수를 줄이는 일련의 탐색적 데이터분석기법

주요 알고리즘 : 주성분, 독립성, 특이값 분해, 요인, 다차원 척도법 등

파생변수(유도변수, Derived Variable)

기존 변수에 특정 조건 또는 함수 등을 이용하여 새롭게 재정의한 변수

생성 방법 : 단위 및 척도 변환, 표현 형식, 요약 통계량 이용, 변수 결합 등

변수변환

수학적 의미에서 보면, 어떤 변수(들)로 나타낸 식을 다른 변수(들)로 바꿔 나타내는 기법

구간화, 평활화, 클러스터링, 타깃변수 예측을 위한 의사결정나무 등 이용

불균형 데이터

어떤 데이터에서 각 클래스(주로 범주형 변수)가 갖고 있는 데이터의 양에 차이가 큰 경우 발생

불균형 데이터 처리방법

Undersampling : 다수 클래스 데이터에서 일부만 사용. 무작위로 정상 데이터 일부 선택

Oversampling : 소수 클래스 데이터를 증가시키는 방법. 무작위로 소수 데이터 복제

제2장. 데이터 탐색

데이터 탐색(EDA; Exploratory Data Analysis)

쌓여 있는 데이터를 기반으로 연구 목적에 맞는 가설을 세우고 데이터를 분석하는 작업으로 데이터의 구조와 특징을 파악하고 분석을 통해 얻은 정보를 토대로 통계적 분석모형을 만듦

EDA 절차

데이터 속성 파악 → 데이터 결측치 확인 → 데이터 이상치 확인

상관관계 분석

두 변수 사이에 얼마나 선형적인 관계가 있는지를 파악하기 위해서 사용되는 통계적 방법

산점도(산포도)

두 개의 변수가 짝을 이루는 경우 두 변수 사이의 관계를 그림으로 표현한 것

상관계수

두 변수의 직선화 정도를 파악할 수 있는 통계량

피어슨 상관계수 : 두 변수가 연속형 자료인 경우 두 변수 사이의 연관성 정도 파악

스피어만 상관계수 : 분석하려는 데이터가 순위를 나타내는 순위형 자료(서열 척도)인 경우

통계학

기술 통계학 : 자료의 특성을 쉽게 파악할 수 있도록 자료의 대푯값을 구하고 자료를 간단히 그래프로 표현하여 분석

추측 통계학 : 자료에 있는 불확실한 사실에 대한 추론을 하는 것으로 모집단에서 표본을 추출해서 선출된 표본으로 모집단의 특성 파악

모집단 : 관심의 대상이 되는 전체 집합

표본집단 : 모집단에서 추출된 일부

모수 : 모집단의 특성을 수치로 나타낸 것

통계량 : 표본집단의 특성을 수치로 나타낸 것

중심위치의 기초 통계량

산출평균, 가중 산술평균, 기하평균, 조화평균, 중위수, 최빈값, 사분위수 등

흩어짐(퍼짐) 정도를 나타내는 기초 통계량

범위, 분산, 표준편차, 변동계수(표본평균/표본편차), 사분위 범위 등

분포의 모양을 나타내는 척도

왜도(Skewness) : 자료 분포의 비대칭도 파악. 왜도 = 0이면 대칭 분포. 왜도가 +이면 왼쪽으로 기울고, -이면 오른쪽으로 기울어진 분포 모양

첨도(Kurtosis) : 분포가 중심에서 얼마나 뾰족한지를 나타내는 통계량. 3보다 작으면 정규 분포보다 뾰족한 모양. 3보다 크면 정규 분포보다 완만한 모양을 나타냄

시각적 데이터 탐색

시각 이해의 계층도를 통해 데이터, 정보, 지식, 지혜 사이의 계층적 관계 설명

데이터 사이의 관계 등을 찾아 정보를 발견하고 정보가 좀 더 조직화되었을 때 지식이 되며, 정보가 구조화되어 적용되었을 때 지혜가 됨

시공간 데이터

공간적 객체에 시간의 개념이 추가된 것. 시간에 따라 위치나 형상이 변하는 데이터

데이터를 공간과 시간의 흐름상에 위치시킬 수 있는 거리 및 시간 속성을 가짐

시공간 데이터를 저장하기 위한 공간 데이터 타입은 객체의 기하학적인 특성을 기준으로 저장됨(포인트, 라인, 폴리곤, 폴리라인 등)

이산적 변화 : 시간의 흐름에 따라 시와 군의 통합으로 인해 상호간의 행정경계가 변화

연속적 변화 : 일정한 주기로 수집된 기상정보를 이용하여 기상전선의 변화를 나타냄

다변량 데이터 분석

많은 수의 케이스를 특성이 비슷한 몇 가지 집단으로 분류하여 전체 케이스가 가지고 있는 의미를 분류된 몇 개의 집단으로 설명

변수의 차원을 줄이는 방법 : 다변량 회귀 분석, 다변량 분산 분석, 주성분 분석, 요인 분석, 정준상관 분석

케이스의 차원을 줄이는 방법 : 군집 분석, 판별 분석, 다차원 척도법

비정형 데이터 탐색

일반적으로 비정형 데이터 탐색 및 정련 과정을 통해 정형 데이터로 만든 후 분류, 군집화, 회귀 분석, 요약, 이상감지 분석 등의 데이터 마이닝을 통해 의미 있는 정보를 발굴

비정형 데이터 탐색 및 분석 방법

통계기반의 데이터 분석 도구 사용

OLAP(Online Analytical Processing) 분석

데이터 내에 숨겨진 관계, 패턴, 경향 등을 추출

텍스트 마이닝, 오피니언 마이닝, 웹 마이닝, 소셜 네트워크 마이닝 기법 등 활용

제3장. 통계기법 이해

데이터 요약값

데이터 분석을 위해 간단한 기초통계량을 중심으로 제시된 값

표본 추출

모집단의 부분 집합을 추출한 것

추출된 표본(Sample)은 모집단과 같은 대표성을 가진다고 가정

모집단 전체에 대한 분석이 사실상 불가능한 제약으로 표본 이용

전체 대상의 특성을 대표할 수 있는지의 여부 확인

표본의 대표성이 중요

확률적 표본 추출 방법

단순 무작위 추출 : 표본이 추출될 확률이 동일한 경우

층화표본 추출 : 두 개 이상의 층으로 나누고 각 층마다 독립적으로 단순 임의 추출

집락(군집)표본 추출 : 이질적인 군집으로 구분, 무작위로 몇 개의 군집을 표본 추출

계통표본 추출 : 모집단 목록에서 일정한 순서에 따라 요소 추출

비확률적 표본추출 방법

할당표본 추출 : 모집단을 일정한 카테고리로 나눈 후 각 카테고리에서 정해진 표본 수만큼 작위적으로 추출

유의표본 추출 : 연구자가 연구목적의 달성에 도움이 되는 구성요소를 의도적으로 추출

임의표본 추출 : 정해진 표본 선출 시까지 모집단의 일정 단위 또는 사례 표집

누적표본 추출 : 소수 인원을 조사원으로 활용하여 주위 사람들을 조사

확률 변수와 확률 분포

확률 변수(Random Variable) : 표본공간의 근원 사상을 정수나 실수로 표현하여 나타낸 변수

확률 분포(Provavility Distribution) : 확률 변수를 중심으로 확률 변수의 특성에 따라 확률로 표현한 분포

이산 확률 분포

확률 변수가 일정한 수로 나타나는 경우

베르누이 시행 : 확률 변수가 성공 아니면 실패로 표본공간이 이루어진 경우

이항 분포 : 성공활률이 p인 베르누이 시행을 n번 독립적으로 반복할 때의 성공 횟수

포아송 분포 : 단위시간당 또는 단위면적당 사건의 평균 횟수가 몇 번인지를 확률 변수로 정의

초기하 분포 : 유한 모집단에서 비복원 추출의 경우 성공의 수를 확률 변수로 정의

기하분포 : 첫 번째 성공이 일어날 때까지의 베르누이 시행 횟수

음이항 분포 : 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복할 때 K번 성공하기까지의 시행 횟수

다항 분포 : 여러 번의 독립시행에서 각각의 값이 특정 횟수가 나타날 횟수

연속 확률 분포

확률 변수가 연속적인 수로 나타나는 경우

정규 분포 : 모수인 평균과 표준편차에 의해 모양 결정. 평균을 중심으로 종모양의 분포

표준 정규 분포 : 평균 =0, 표준편차 = 1인 정규 분포

t분포 : 표준 정규 분포를 따르는 확률 변수가 표준편차를 알 수 없어 추정값을 사용하거나 표본의 크기가 작을 때 이용. 자유도에 따라 모양이 변함

카이제곱 분포 : 확률 변수들이 각각 표준 정규 분포를 따르고 서로 독립일 때 확률 변수의 제곱의 합의 분포

F 분포: 두 정규 모집단에서 추출된 표본으로부터 두 모집단의 분산에 대한 검정 시 사용

표본 분포와 통계량

표본 분포 : 추출된 표본(통계량)의 확률 분포, 모집단에서 일부분을 추출하여 표본을 만들고 추출된 표본을 이용하여 분포에 대한 추론을 수행함

통계량 : 표본집단의 특성값, 모평균을 추론하기 위해 표본평균을 활용함

중심극한정리

표본의 크기가 큰 경우에 표본평균의 분포는 모집단의 분포와 무관하게 정규 분포를 따름

점추정

모수를 하나의 값으로 추정하여 나타냄

모평균 추정을 위한 표본평균 값

모분산 추정을 위한 표본분산

모비율 추정을 위한 표본집단의 비율 등

추정량(Estimator) : 모수를 추정하기 위해 만들어진 표본 통계량

추정치(Estimate) : 주어진 관측값으로부터 계산된 통계량 값

표준오차 : 추정량의 정확도를 측정하는 도구. 추정량의 표준편차 이용

구간추정

신뢰구간 : 추정량의 분포를 이용해서 표본으로부터 모수값을 포함할 것으로 예상되는 구간

신뢰수준 : 신뢰구간이 모수를 포함할 확률

표본의 최소 크기

적정한 신뢰구간을 이용하여 표본의 크기를 구함. 일반적으로 모집단에 대한 분포의 가정이 없을 때 중심극한정리를 만족하도록 하기 위해서 표본의 크기는 30 이상이 되도록 함

추정량의 성질

불편성(비편향성) : 추정량의 기댓값과 모수의 실젯값이 같아야 함

효율성(유효성) : 추정량의 분산이 작아야 함

일치성 : 표본의 크기가 커질수록 추정량이 모수에 일치해야 함

충분성 : 동일한 표본으로부터 얻은 추정량이 모집단의 모수에 대한 정보를 더 많이 제공해야 함

가설 검정

모집단의 모수에 대한 추정값에 대한 검정

통계적 가설 : 표본의 특성을 나타내는 모수에 대한 주장

귀무가설 : 모집단의 모수에 대해 어떤 조건을 가정하여 설정된 가설(거짓이 명확히 규명될 때까지 참인 것으로 인정되는 주장)

대립가설 : 귀무가설의 반대되는 가설(모수에 차이가 있다는 것을 나타냄, 효과가 있다는 주장)

유의수준

유의수준(α) : 귀무가설이 참인데 참인 귀무가설을 기각하면서 생기는 오류(제1종 오류)

유의수준을 기준으로 기각과 채택을 결정함

유의확률(p) : 주어진 통계량에서 귀무가설을 기각할 수 있는 최소의 유의수준 값

검정 통계량 : 모집단의 부분집합인 표본으로부터 검정에 대한 결론을 내리고 귀무가설을 기각하거나 채택하는 결정을 내리는 데 활용되는 표본의 함수

채택역 : 귀무가설을 채택하는 검정 통계량의 영역

기각역 : 귀무가설을 기각하는 검정 통계량의 영역

가설 검정 절차

가설수립 → 유의수준 결정 → 검정 통계량 계산 → 기각역 설정 → p≤α이면 귀무가설 기각

Bob Park

가치를 만드는 데이터 분석가

이전 포스트

[빅데이터 분석기사 필기] 제1과목. 빅데이터 분석 기획

다음 포스트

[빅데이터 분석기사 필기] 제2과목. 빅데이터 탐색

[자격증] 빅데이터 분석기사

이번 글은

제1장. 데이터 전처리

제2장. 데이터 탐색

제3장. 통계기법 이해

[빅데이터 분석기사 필기] 제1과목. 빅데이터 분석 기획

[빅데이터 분석기사 필기] 제3과목. 빅데이터 모델링

0개의 댓글