시각화
- 가장 낮은 수준의 분석이지만 잘 이용하면 효율적
- 탐색적 분석을 할 때 시각화는 필수이다.
- 사회연결망 분석(SNA)에 자주 이용된다
- ex) 차트, 도표 등
공간분석
- 공간적 차원과 관련된 속성들을 시각화하는 분석
- ex) 지도 위의 자동차 운행 상황 등
탐색적 자료 분석 (EDA)
- 다차원과 값을 조합해가며 특이점이나 정보를 도출하고 분석의 최종목적을 달성해가는 과정
- 모형 개바에서 데이터 이해, 변수 생성, 변수 선택 단계에 이용
- EDA 4가지 주제
- 저항성 강조 : 데이터 파손에 대한 저항성
- 잔차 계산 : 개별 관측값이 자료의 주경향으로부터 얼마나 벗어났는지 확인
- 자료변수의 재표현을 통한 다각적 시도
- 그래프를 통한 현시성
통계 분석
- 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자, 표, 그림의 형태로 나타내는 것
- 기술통계, 추론통계
데이터 마이닝
- 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙 등을 탐색함으로써 이전에 알지 못한 유용한 지식을 추출하는 분석 방법
- 방법론
- 기계학습 : 인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM
- 패턴인식 : 연관규칙, 장바구니 분석
- 모델링
통계 분석
- 모집단 : 조사하고자 하는 대상 집단 전체 ex) 한국인 전체
- 표본 : 조사하기 위해 추출한 모집단 ex) 20대 남성 300명
- 통계량 : 표본을 관측한 결과 ex) 20대 남성 300명 키의 평균, 표준편차, 분산
- 모수 : 통계량을 통해 추정한 모집단에 대해 정보 ex) 우리나라 20대 넘성 키의 평균
자료 획득 방법
- 전수 조사 : 전부 조사, 모든 대상을 조사 ex) 인구주택 총 조사
- 표본 조사 : 모집단에서 샘플을 추출하여 진행하는 조사 ex) 당뇨병이 있는 300명을 추출하여 조사
표본 추출방법
모집단을 대표할 수 있는 표본 추출이므로 표본 추출방법에 따라 분석결과에 큰 차이가 있음
- 단순랜덤 추출법(simple random sampling)
- 계통추출법(systemtic sampling) : 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간으로 나누고 구간마다 표본을 선택
- 집락추출법(cluster sampling) : 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후, 샘플링
- 층화추출법(stratified sampling) : 각 계층을 고루 대표할 수 있도록 층을 나누고 표본을 추출
자료 측정 방법
- 명목 척도 : 어느 집단에 속하는지 분류할 때 사용 ex) 성별, 출생지
- 서열 척도 : 서열 관계를 관측하는 척도 ex) 만족도, 선호도
- 당신이 판단할 때 본인이 속한 사회 계층은? 1) 상류층 2) 중산층 3) 하류층
- 구간 척도 : 의미있는 수치(소수점 X), 구간 사이의 간격이 의미있음 ex) 온도, 지수
- 현재 자녀수에 대해 1) 적다 2) 적당하다 3) 많다
- 비율 척도 : 간격에 대한 비율이 의미를 가지는 자료, 절대적 기준인 0이 존재 ex) 무게, 키, 나이, 시간, 거리
사분위수 정의
사분위수는 데이터 표본을 4개의 동일한 부분으로 나눈 값이다. 사분위수를 사용하여 데이터 집합의 범위와 중심 위치를 신속하게 평가할 수 있다.
사분위수 | 설명 |
---|
제 1 사분위수 (Q1) | 데이터의 25%가 이 값보다 작거나 같음 |
제 2 사분위수 (Q2) | 중위수 데이터의 50%가 이 값보다 작거나 같음 |
제 3 사분위수 (Q3) | 데이터의 75%가 이 값보다 작거나 같음 |
사분위간 범위(IQR) | Q3-Q1, 데이터 중간에 대한 범위 |
ex) data = 7,9,16,36,39,45,45,46,48,51
- Q1 = 14.25
- Q2(중위수) = 42
- Q3 = 46.50
확률 및 확률 분호
- 표본 공간 : 어떤 실험을 할 때 나타낼 수 있는 모든 결과들의 집합
- 사건 : 표본공간의 부분 집합
- 확률 변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수
- 이산확률 변수 : 변수가 끊어짐 ex) 4,3,2,5,8
- 연속확률 변수 : 변수가 연속적임 ex) 1,2,3,4,5
- 확률 분포 : 확률 변수가 특정한 값을 가진 확률을 나타내는 함수
이산형 확률분포
- 0이 아닌 확률값을 갖는 확률 변수를 셀 수 있는 경우
- 종류 : 베르누이 분포, 이항 분포, 기하 분포, 다항 분포, 포아송 분포
연속형 확률분포
- 가능한 값이 실수 어느 특정구간 전체에 해당하는 확률변수
- 종류 : 균일분포, 정규분포, 지수 분포, t-분포, 카이제곱 분포, F-분포